<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=266259327823226&amp;ev=PageView&amp;noscript=1">
Skip to content

Databricksin hyödyntäminen big data -analytiikassa (1/5) – Arkkitehtuuri

Ad hoc -raportointi. Itsepalveluanalytiikka. Niistähän on puhuttu jo vuosia. Markkinoilla onkin useita Self-Service BI-tuotteita, kuten Microsoft Power BI (Desktop). Näiden työkalujen käyttöä kuitenkin usein rajoittaa käyttäjän läppärin suorituskyky, ja ne soveltuvat lopulta huonosti tai jopa surkeasti suurten tietomassojen pika-analyyseihin.

Pilvimaailma kuitenkin on ja on aina ollut big datan luvattu maa, joten voisiko sieltä saada apua tämän kaltaisiin ongelmiin?

Helppo vastaus on tietysti kyllä, mutta mitä se sitten tarkoittaa käytännössä? Mitä tekniikoita, palveluja ja osaamista käyttäjillä täytyy olla, jotta he pystyisivät hyödyntämään pilven laskentakapasiteettia nopeaan analytiikkaan suurilla tietomassoilla? Vastauksia on varmasti lähes yhtä monta kuin vastaajiakin. Tässä blogissa paneudun siihen, miten Databricksin ja Power BI:n yhdistelmä sopii tähän tarkoitukseen.

DataBricksin hyödyntäminen big data -analytiikassa (1/5) - Arkkitehtuuri

Azuressa on toki tarjolla muitakin teknisiä vaihtoehtoja, joista toivottavasti pääsen vielä lähitulevaisuudessa kirjoittamaan jatkoblogia. Tällä hetkellä Spark-pohjainen Databricks tarjoaa edistyneille business-käyttäjille ja data-analyytikoille kohtuullisen helppokäyttöisen vaihtoehdon, jolla pääsee pöyhimään yrityksessä tarjolla olevaa dataa.

Yksinkertaisimmillaan tässä esiteltyyn arkkitehtuuriin kuuluu

  • Tallennuspalvelu kuten esimerkiksi Data Lake Storage Gen2
  • Hajautettu laskentamoottori Databricks
  • Visualisointityökalu Power BI
  • Näiden lisäksi tuotantojärjestelmässä ajoja hallitaan keskitetysti Data Factoryllä, joka huolehtii ajojen orkestroinnista. Eli siirtää uutta tietoa valittuun tallennuspalveluun ja  käynnistää laskennat tämän jälkeen.

Seuraavassa blogipostauksessa kerron mitä aloittaminen vaatii käytännössä. 

(Blog in English coming soon...)