I data lake sono la morte del datawarehouse?

Condividi questo articolo con chiunque pensi possa trovarlo utile
Tempo stimato per la lettura: 5 minuti

 

I data warehouse stanno morendo a causa dei data lake e dei big data.

Ma ne siamo proprio sicuri?

Con l’avvento e il sempre maggiore utilizzo dei Big Data, si è iniziato a parlare di Data Lake, lo strumento per lo storage e l’analisi di grandi quantità di dati.

In questo articolo capiremo le differenze tra Data warehouse e data lake e perché questi due strumenti possano e debbano convivere in azienda.

Cos’è un datawarehouse

Il data wharehouse è un Database studiato e modellato per permettere alle aziende di analizzare i dati ed estrapolare da queste informazioni utili al proprio business che permettano di prendere decisioni strategiche.

Il Data Wharehouse ha l’obiettivo principale di prelevare i dati dal database per aggregarli e supportare le attività di analisi.

Il valore aggiunto di un data warehouse è l’elevato livello di qualità delle analisi possibili anche grazie all’integrazione con piattaforme di Business intelligence e analytics.

Attraverso un data warehouse le interrogazioni a fini analitici possono avvenire senza interferire con i processi di repository dei dati. Le risposte sono immediate anche su grandi volumi di dati.

La struttura del Data Warehouse (DWH) è pensata per gestire ed elaborare grandi moli dati in tempi brevissimi.

 

Cos’è un data lake

 

Il data lake è repository condiviso che permette di acquisire e archiviare grandi quantità di dati  strutturati e non strutturati (da quelli del CRM ai post dei social media, dai dati ERP alle info delle macchine di produzione), in formato nativo.

Pertanto i data lake acquisiscono e  conservano dati non ancora elaborati per uno scopo specifico. Un dato in un Data Lake non viene definito fino al momento in cui non viene eseguita una query che lo coinvolga.

La grande novità risiede nella possibilità di archiviare dati con formati molto differenti senza necessità di doverli uniformare  e “normalizzare”. Questo permette di estrarre dati da qualunque fonte informativa senza che questa sia organizzata come un data base relazionale, organizzato in tabelle con strutture e caratteristiche definite a priori.

 

Differenze tra data lake e datawarehouse

 

Lo scopo del Data Lake pertanto è di rendere disponibile una visione dei dati non necessariamente raffinata a supporto delle attività di Data Discovery, caratteristica che lo rende adatto a utenti esperti.

Al contrario, il Data Warehouse ha l’obiettivo di rendere disponibile, attraverso tool di Business e Big Data Analytics, una visione di dati elaborati per uno scopo e/o un processo di business ben preciso.

 

Le differenze tra DWH e Data Lake sono riassumibili mediante il seguente schema:

DATA LAKEDATA WAREHOUSE
Struttura dei dati Grezzi (strutturati, semi-strutturati e non strutturati)Strutturati, Elaborati
Finalità dei dati Da Definire, Definita
Nota: È possibile che vi siano dati per i quali la finalità non è stata definita (ad uso futuro)
Definita
SchemaOn ReadOn Write
UtentiData ScientistBusiness User
AccessibilitàElevata accessibilità e semplicità di aggiornamentoAccesso e aggiornamenti più complicati e costosi 
StorageCosti limitati e storage distribuito (potenzialmente espandibile su cloud)Costi e review dei processi di ingestion onerosi

Ho parlato nel dettaglio delle differenze tra Data Lake e DWH in questo mio articolo pubblicato su BIgdata4innovation

Dati destrutturati e data lake sono la morte del datawarehouse

Contrariamente a quello che si potrebbe pensare le due tecnologie non sono in competizione tra loro ma sono invece complementari. Negli ultimi anni, soprattutto grazie al consolidamento dei servizi in cloud il paradigma legato ai sistemi di reportistica si è continuato a evolvere introducendo nuovi concetti e architetture che fondono le tecnologie legate a Data Lake, Big Data e Data Warehouse. Da questa fusione sono nati i “Modern Data Warehouse” e i “Real Time Data Warehouse”, che prevedono come primo livello di integrazione proprio i Data Lake e i moduli Big Data.

Tutto questo per dire che i due sistemi di storage hanno obiettivi molto differenti l’uno dall’altro.

Data lake e Data warehouse offrono strumenti di analisi diversi ad utenti diversi

I Data lake vogliono fornire una base dati analizzabile in tempo reale da data scientist con obiettivi di analisi ogni volta diversi.

Il DWH vuole invece produrre report standardizzati e che spesso prevedono ETL e processi di trasformazioni molto complessi e sofisticati.

 

A questo punto va fatta una puntualizzazione in merito agli utilizzatori dei dati. Abbiamo visto che gli utenti che si approcciano ad un data lake devono essere utenti esperti di dati, meglio conosciuti come data scientist, mentre gli utilizzatori dei DWH possono essere utenti meno esperti.

Nella maggior parte delle aziende l’80% degli utenti sono “operativi”:  usano report e verificano KPI predefiniti relativamente semplici.

Per questi utenti un sistema di tipo Data Warehouse è più che sufficiente: è strutturato, facile da usare ed è costruito appositamente per rispondere a domande specifiche.

Circa il 10%, 15% degli utenti eseguono analisi più approfondite sui dati. Spesso accedono ai sistemi sorgente per usare dati che non sono disponibili nel database, o acquisiscono altri dati da sorgenti esterne. Spesso sono questi utenti che generano i report che poi vengono distribuiti in azienda.

Solo una percentuale minima di utenti invece esegue analisi approfondite dei dati, integrando nuove sorgenti dati, mescolando dati disomogenei tra loro, e sa come leggerli.

Nella maggior parte dei casi questi utenti non utilizzano nemmeno i Data Warehouse, perché lavorano sui dati ad un livello diverso, prima che siano strutturati, per offrire una risposta ad un quesito specifico.

Possiamo quindi concludere che:


AL 95% DEGLI UTENTI DELL’AZIENDA SERVE UN DATA WAREHOUSE E SOLO  IL RESTANTE 5% UTILIZZA I DATA LAKE


Ad utilizzare i DWH possono essere utenti meno esperti di dati

Questo perché il processo di DWH è caratterizzato da una fase preliminare di standardizzazione delle informazioni e di modellazione dei dati tramite processi  ETL (extraction, transformation e loading), e pertanto i dati vengono “preparati” per poter essere accolti in dashoboard e report già definiti che l’utente finale può lanciare ed analizzare. Non c’è pertanto la necessità di pensare e configurare il report al momento dell’analisi e le informazioni che si ricercano sono state già configurate a monte nel processo.

In altre parole i sistemi di Data Warehouse presuppongono una fase preparatoria dei dati che è affidata ad esperti del DWH in questione, che hanno il compito di organizzare i dati e collegarli per trarre informazioni. Questi rilasciano all’utente finale uno strumento di facile utilizzo ed analisi.

Solitamente questa fase di costruzione delle reportistiche sono affidate a consulenti esterni che hanno forti skill di analisi dei dati, utilizzo del DWH specifico e che analizzano il processo di business congiuntamente con gli utilizzatori finali per poter creare report standardizzati e di semplice utilizzo.

Io ad esempio di occupo di DWH in ambito SAP (più precisamente utilizzando la piattaforma SAP BW) ed il mio lavoro è suddivisibile nelle seguenti fasi:

      • Analisi dei processi di business atta a definire le esigenze di reportistica
      • Disegno del modello dati da implementare per determinare a monte le informazioni che si vogliono estrapolare dai dati e decidere quali dati mettere in relazione tra di essi
      • Realizzazione degli ETL
      • Rilascio delle reportistiche standardizzate agli utilizzatori finali.

Nei data lake queste fasi vengono bypassate e lasciate all’utilizzatore finale che per tanto ha necessità di avere approfondite conoscenze tecniche e di analisi dati.

 

Convivenza tra Data Warehouse e Data Lake

 

Nella mia ottica, la velocità dei Big Data richiede di avere un data lake in azienda, a cui però è necessario affiancare un DWH per analizzare la situazione complessiva dell’azienda e produrre report di semplice analisi.

Ma è possibile andare anche oltre pensando di includere i big dati presenti nei data lake all’interno di flussi ETL del Data warehouse.

Questo aumenta notevolmente il potenziale di analisi dei dati.

Abbiamo raccolto i big data senza fare grosse operazione di standardizzazione e li abbiamo storicizzati in un data lake?

Sicuramente il primo obiettivo di questa raccolta è stato quello di fornire a data scientist un set di dati da poter utilizzare per le loro analisi in autonomia.

Ma nulla vieta che questi dati che sono stati faticosamente raccolti e storicizzati dall’azienda vengano usati anche per altri scopi.

Ricordiamoci che raccogliere e conservare dati è faticoso e costoso ma allo stesso tempo molto importante

I dati destrutturati sono pur sempre dati. Possono essere lavorati per diventare dati strutturati e classificabili nelle classiche tabelle di un DWH.

E a quel punto possono benissimo andare ad aumentare le informazioni già presenti nel DWH.

Questa mia visione è ripresa anche direttamente dalla SAP.

 

L’immagine qui sopra è stata presa direttamente da una slide di un corso della SAP su SAP BW4HANA.

 

Vorrei focalizzare l’attenzione su un particolare di questa immagine che riporto di seguito:

Le due frecce che ho cerchiato mostrano benissimo come tra i due diversi sistemi ci possano essere dei collegamenti e come entrambi i sistemi possano utilizzare le informazioni dell’altro.

In fondo il fine comune è quello di fare delle analisi precise e la potenza dei big data può essere sfruttata per effettuare ad esempio delle analisi predittive.

Ovviamente c’è necessità di strutturare i dati grezzi del data lake, ma questo è assolutamente possibile ed offre innumerevoli possibilità e potenzialità.

Nel mio lavoro come consulente SAP BW sto vedendo un trend in fortissima crescita rappresentato proprio dalla voglia di utilizzare i big data ed integrarli nella reportistica standardizzata per trarre sempre informazioni più precise.

Conclusione

I big data sono il presente e saranno il futuro.

Vanno raccolti ed analizzati ma questo non vuol assolutamente dire che non ci sia più bisogno di strumenti centralizzati di analisi.

I “vecchi” DWH non sono ancora pronti per andare in pensione ma stanno iniziando a cambiare per poter accogliere le novità e poter essere alleati dei data lake.


Data Lake e Data warehouse possono e devono coesistere per permettere alle aziende di analizzare non solo quello che è accaduto ieri ma anche quello che sta accadendo oggi e che potrebbe accadere domani


 

Condividi questo articolo con chiunque pensi possa trovarlo utile

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *