Perinteinen vs. moderni tietovarastointi

Kirjoittanut Hannu Muurinen | Lead Consultant | 14.2.2018 22:00

Asiantuntijamme Hannu Muurinen avaa oven perinteisen ja modernin tietovaraston “vastakkainasetteluun”. Mitkä ovat kehittyneemmän ratkaisun edut ja erot? Jatka lukemista niin tiedät.

Tietovarastointi voidaan toteuttaa eri tavoin. Tämän tekstin keskiössä ovat perinteinen sekä moderni tietovarastointi. Organisaation tieto ja sen hyödyntäminen ovat jatkuvasti kasvavin määrin julkisuudessa. Jatkuvasti merkittävämpi osa tiedoista tulee organisaation ulkopuolelta, tiedon muoto saattaa vaihdella huomattavasti ja volyymit voivat olla erittäin suuria. Tietoa pitäisi pystyä keräämään, varastoimaan ja hyödyntämään kaikesta tästä huolimatta tehokkaasti perinteisen ja edistyneen analytiikan avulla. Olkoon tilanne siis ratkaisun infrastruktuurin osalta mikä tahansa, se tulisi saada optimoitua, jotta sitä voitaisiin kehittää paremmaksi.

Perinteinen Tietovarastointi

Muuttunut tilanne heijastuu siihen, kuinka tietovarastoja mallinnetaan. Perinteisessä tietovarastomallissa on tyypillisesti ollut kolme tasoa:

Tietokantapohjainen latausalue
Tietovarasto
Tietovaraston päälle rakennetut hyödyntämisrajapinnat, kuten datamart-tietokannat tai analysointikuutiot.

Tiedot mallinnettiin yleensä top-down menetelmällä liiketoimintatarpeesta lähtien, josta muodostettiin tietomallit ja käsittelysäännöt hyödyntämisrajapintaan, tietovarastoon ja edelleen vaatimukset lähdejärjestelmistä noudettaville tiedoille.

Moderni Tietovarastointi

Modernissa tietovarastoympäristössä on erillinen tallennusalue: ”Data Lake”. Se mahdollistaa tiedon tallennuksen skaalautuvasti ja suhteellisen edullisesti tiedostomuodosta ja tietomäärästä riippumatta. Tiedot noudetaan tietokokonaisuus kerrallaan raakamuodossaan tietolähteistä bottom-up mallinnustapaa noudattaen, vaikka kaikelle tiedolle ei tässä vaiheessa vielä olisikaan käyttöä. Liiketoimintalogiikkaa ei tarvitse mallintaa tässä vaiheessa ja kaikki tieto päästään tallentamaan ja versioimaan varhaisessa vaiheessa.

Data lake tarjoaa periaatteessa pohjan tiedon jalostukselle nykyaikaisilla BI-välineillä tai edistyneen analytiikan välineille. Tästä huolimatta tarvitsemme lisäksi vakiintuneemman tietorakenteen, jotta voimme hyödyntää tietoa analytiikassa tehokkaammin ja kerran jalostettua tietoa pystyy hyödyntämään muissakin käyttötapauksissa. Vakiintuneiden tietorakenteiden alustana käytetään tyypillisesti tuttuja relaatiotietokantapohjaisia ratkaisuja.

Osa Data Laken tiedoista viedään erikseen Enterprise Data Warehouse-tyyppiseen tietovarastoon, joka mallinnetaan esimerkiksi Data Vault -menetelmää käyttäen. Mallinnus on suoraviivaista ja mallinnustapa mahdollistaa vaiheittaisen ja laajennettavan toteutuksen. Data Vaultissa tiedot tyypillisesti historioidaan, mutta liiketoimintalogiikkaa ei vielä määritellä. Loppukäyttäjälle näkyvään rajapintaan tuodaan tieto tietovarastosta siten, että siinä on loppukäyttäjän tietotarpeet ja liiketoimintasäännöt huomioitu. EDW:n päälle muodostuvat kerrokset mallinnetaan top-down menetelmällä, kuten aiemminkin ja liiketoimintatarpeet muutenkin vaikuttavat siihen, että missä järjestyksessä tietokokonaisuuksia tuodaan tietovarastoalustalle.

Datan ja analytiikan hyödyntäminen on poikkeuksellisen monitahoinen teema, ja siksi konkreettinen liikkeellelähtö voi tuntua haastavalta. Digian datan ja analytiikan hyödyntämisen Fast Track on nopea ja tehokas työpajojen sarja, jonka aikana muodostetaan tilannekuva ja toteutuskelpoinen suunnitelma konkreettista toteutustyötä varten.

Näytä koko julkaisu