La Business Intelligence ha vissuto in questi anni una evoluzione che l’ha trasformata da strumento per l’analisi retrospettiva a mezzo per l’analisi sempre più real-time e predittiva. Inizialmente il focus della Business Intelligence è stato analizzare lo storico dei dati raccolti per arrivare a spiegare con precisione cosa era già successo. Per esempio, analizzare la distribuzione geografica delle vendite per identificare le preferenze dei consumatori in diverse regioni.
Trasformare la BI in uno strumento predittivo significa arrivare a spiegare non solo come un fenomeno (come ad esempio le dinamiche di vendita) si è verificato in passato ma come continua a evolvere e come probabilmente si concretizzerà in futuro. Dai dati disponibili deve essere cioè ricavato un modello del fenomeno che si sta analizzando, non semplicemente uno storico.
Cos’è l’analisi predittiva
Prima di addentrarci nel cuore di questo articolo e vedere come realizzare analisi predittive, e cosa cambia rispetto ai classici report di BI, mi sembra doveroso dare una spiegazione di cosa si intende per analisi predittiva e perché può essere utile.
Partiamo dalle basi, e iniziamo con una definizione.
Per Wikipedia l’analisi predittiva è:
“L’analisi predittiva è un termine che comprende una varietà di tecniche statistiche della modellazione predittiva, apprendimento automatico e data mining per analizzare fatti storici e attuali e fornire predizioni sul futuro o su eventi sconosciuti.”
Da questa definizione possiamo estrarre alcuni elementi importanti :
- Tecniche statistiche per modelli di apprendimento automatico e data mining
- Analizzare dati storici per estrarre predizioni sul futuro
Possiamo quindi provare a dire che
L’analisi predittiva consiste nell’utilizzare dati, algoritmi statistici e tecniche di machine learning per individuare la probabilità di risultati futuri basandosi sui dati storici. L’obiettivo è andare oltre la comprensione di cosa è successo per arrivare a una migliore valutazione di quello che accadrà in futuro.
In questa frase abbiamo il senso pratico e l’importanza delle analisi predittive. Partiamo dall’obiettivo che è quello di andare oltre le analisi dei dati classiche della Business Intelligence. Qui non solo si vuole conoscere e capire il passato e il presente (grazie a report real time), ma si vuole cercare di anticipare il futuro.
Ovviamente in questo salto ci spostiamo dal campo del noto e del certo al campo del probabile ed è per questo che si utilizzano modelli statistici e probabilistici per determinare cosa verosimilmente potrebbe accadere.
Abbiamo bisogno quindi di strumenti e tecniche diverse da quelle che utilizziamo per studiare il noto (non ci basta più il nostro DWH), e dobbiamo cambiare obiettivo perché non vogliamo più analizzare un fatto provare ad estrarre pattern comuni tra dati a cui affidare una probabilità.
Rimane però una costante, l’importanza dei dati, della loro analisi e della capacità di estrarli, aggregarli e manipolarli.
Possiamo dirci che ci stiamo spostando ad un livello di Business Intelligence più evoluto (come avevo detto nell’articolo Piramide DIKW: dai dati alla saggezza grazie alla Business Intelligence)
Da Analisi descrittiva ad analisi predittiva (e prescrittiva)
L’analisi descrittiva è la fase preliminare della data analysis, e risponde alla domanda “Che cosa è successo?“. L’analisi descrittiva precede l’analisi diagnostica (“Perchè è successo?“), che a sua volta è seguita dall’analisi predittiva (“Che cosa potrebbe succedere nel futuro?”) e dall’analisi prescrittiva (una combinazione di analisi descrittiva e analisi predittiva che risponde alla domanda “Come dovremmo reagire a potenziali eventi del futuro?“).
Mentre i modelli di analisi predittiva si basano su dati storici per determinare le probabilità che un determinato evento si realizzi nel futuro, i modelli di analisi descrittiva si basano su dati storici per determinare come una unità specifica risponde ad un set di variabili.
La Differenza tra l’Analisi Prescrittiva e l’Analisi Predittiva
L’ultima frontiera di questo nostro passo all’interno del data analytics ci porta ad esplorare l’analisi prescrittiva
L’analisi prescrittiva è una forma più avanzata e astratta del data analytics, che permette agli users di creare scenari ipotetici e di estrapolare dei risultati basati su delle variabili. Si tratta di una combinazione del processo di analisi descrittiva, che fornisce degli insights su “cosa è successo”, e il processo di analisi predittiva, “che fornisce degli insight su “cosa potrebbe succedere”, e da la possibilità a chi la utilizza di sapere in anticipo cosa succederà, quando succederà e perché succederà.
L’analisi prescrittiva si basa largamente sul machine learning, con lo scopo di inserire continuamente nuovi dati, analizzarli e comprenderli senza aver bisogno dell’intervento umano, allo stesso tempo migliorando l’accuratezza delle previsioni e suggerendo nuovi modi per sfruttare al meglio un’opportunità futura o per mitigare un rischio.
Storia della BI : dall’OLTP alle analisi predittive
I processi di analisi dei dati hanno subito numerose trasformazioni che evidenziano un processo di continua evoluzione delle tecniche e delle metodologie impiegate. Seguiamo il percorso evolutivo dell’analisi dei dati in azienda, capendo come da semplici query su tabelle relazionali si è passati a sistemi di business intelligence (BI) e come gli strumenti di predictive analytics rappresentino oggi la naturale estensione della BI.
Dall’OLT alla business intelligence
Già a partire dagli anni sessanta, le tecnologie disponibili consentivano la raccolta dei dati riguardanti i processi aziendali su supporti magnetici quali nastri e dischi.
Anni 70
Le analisi che potevano essere svolte erano statiche e limitate ad estrazioni dei dati di consuntivo. Le analisi erano svolte su grandezze aggregate: per esempio era possibile conoscere l’ammontare delle vendite dell’ultimo semestre o dell’ultimo anno.
Anni 80
Con l’avvento dei database relazionali e del linguaggio SQL, negli anni ottanta, l’analisi dei dati assume una certa dinamicità: l’SQL consente di estrarre in maniera semplice i dati, sia in modo aggregato, sia a livello di massimo dettaglio. Le attività di analisi avvengono sulle basi dati operazionali, ovvero quelle su cui i è registrata l’attività operativa giornaliera dell’azienda.
Nella migliore delle ipotesi, ciascuno degli applicativi appena descritti, è semplicemente un modulo di un software ERP (Enterprise Resource Planning), acquistato “chiavi in mano”
Purtroppo, nella maggioranza dei casi, accade che non vi sia un’unica applicazione che gestisce le attività del livello operativo. Ci si trova spesso di fronte ad una pletora di software ognuno dei quali è basato su tecnologie differenti (database relazionali, basi dati non relazionali) e su prodotti di vendor diversi. Un altro aspetto da tenere in considerazione riguarda il disegno delle basi dati sottostanti agli applicativi operazionali. Esse sono di tipo OLTP (On Line Transaction Processing), il loro modello dati è fortemente normalizzato per favorire non tanto le letture e l’analisi di grandi quantità di record, quanto le attività transazionali (inserimenti, cancellazioni, modifiche dei dati). La normalizzazione, se da un lato favorisce l’attività transazionale, dall’altro incrementa notevolmente il numero di tabelle utilizzate per contenerli. Per ricostruire un formato tabellare denormalizzato, più adatto ad essere letto da un utente finale, occorreranno diverse operazioni di JOIN, che complicano l’attività di estrazione dei dati. Oltre a quanto detto sopra, bisogna considerare che solitamente i sistemi operazionali offrono una limitata profondità storica dei dati
Anni 90
L’insieme dei fattori appena descritti rende piuttosto difficoltosa l’analisi dei dati effettuata direttamente sulle fonti operazionali. E’ per questo motivo che, a partire dagli anni novanta, si è cominciato a creare database disegnati appositamente per le analisi e ad integrare in essi i dati provenienti dai sistemi operazionali. Nasce così il data warehouse, un database che contiene dati integrati, consistenti e certificati afferenti tutti i processi di business dell’azienda e che costituisce il punto di partenza per le attività analitiche del sistema di Business Intelligence (BI).Attraverso elaborazioni, analisi o aggregazioni dei dati, ne permette la trasformazione in informazioni, la loro conservazione, reperibilità e presentazione in una forma semplice, flessibile ed efficace, tale da costituire un supporto alle decisioni strategiche, tattiche ed operative.
Con l’evoluzione dei sistemi di BI si è passati da analisi effettuate sul data warehouse tramite query SQL a basi dati multidimensionali che fondono dati e metadati, consentendo all’analista di fare a meno di conoscenze tecniche relative ai database e di concentrarsi sulle problematiche di business. La base dati OLAP consiste in una struttura multidimensionale chiamata cubo.
Dalla business intelligence ai sistemi di predictive analytics
La nascita dei sistemi OLAP (On Line Analytical Processing) ha reso semplice la navigazione dei dati attraverso operazioni di drill down o drill-up. Tuttavia si tratta sempre di una visione storica, che consente soltanto una valutazione a consuntivo di ciò che è accaduto nel passato, oppure di ciò che sta accadendo ora.
Più di recente ha cominciato ad affermarsi la necessità di effettuare analisi previsionali, per anticipare gli eventi e ottenere un vantaggio di business. Tali tecniche di analisi, prendono il nome di data mining, poiché consentono di “scavare” nei dati ed estrarre informazioni, pattern e relazioni non immediatamente identificabili e non note a priori. L’utilizzo delle tecniche di data mining volte all’impiego dei pattern a fini previsionali è chiamato predictive analytics.
Gli strumenti di predictive analytics devono essere inseriti in un processo che presuppone le seguenti fasi:
- Comprensione del business
- Comprensione dei dati
- Preparazione / pulizia dei dati
- Creazione di un modello predittivo
- Test e valutazione del modello
- Utilizzo del modello
Come si noterà i prime tre punti fanno già parte dell’implementazione di un sistema di business intelligence. Detto in altre parole, la presenza di un sistema di BI, che presuppone la presenza di un data warehouse con dati puliti e certificati, costituisce un’ottima base di partenza per l’implementazione di modelli predittivi.
Le tecniche di predictive analytics rappresentano dunque la naturale evoluzione dei sistemi di business intelligence: da un lato le aziende che hanno già un sistema di BI riescono meglio a comprendere le potenzialità offerte dall’implementazione di tali tecniche; in più vi è la consapevolezza di essere a metà dall’opera, avendo a disposizione una base dati aggiornata, pulita e certificata.
La Differenza tra la Business Intelligence e l’Analisi Predittiva
Obiettivi della BI e delle analisi predittive
La differenza fondamentale tra la business intelligence e l’analisi predittiva risiede nella domanda a cui esse danno risposta: la business intelligence risponde a “Cosa succederà adesso?” e l’analisi predittiva risponde a “Cosa succederà nel futuro?”.
L’obiettivo della business intelligence è identificare dei pattern nei dati storici e attuali per far si che le aziende possano trarre le proprie conclusioni dall’analisi dei dati.
I software di analisi predittiva, che hanno un ruolo complementare in diversi sistemi di business intelligence, costruiscono dei modelli analitici a livello individuale per ogni diverso business e identificano dei comportamenti e delle tendenze che possono essere utilizzate per prevedere la probabilità che si verifichino particolari eventi futuri. La business intelligence ricerca e identifica dei trend a macro livello per eliminare problemi e inefficienze.
La Business Intelligence si posiziona perfettamente nel mezzo tra analisi descrittiva e diagnostica in quanto utilizza i dati per capire cosa sia successo e perché.
E rimane lo zoccolo duro su cui basare le analisi predittive in quanto si occupa (e continuerà ad occuparsi) dell’estrazione e normalizzazione del dato che poi può esser “dato in pasto” ai modelli predittivi.
Le predictive analytics e la BI sono in competizione tra loro?
I due tipi di analisi dato non sono in alcun modo in contrasto tra loro, come in uno scontro tra passato e futuro, ma anzi collaborano e lavorano all’unisono svolgendo ruoli differenti che si intersecano e possono interagire per fornirsi reciprocamente dati e informazioni. Non è assolutamente raro, infatti, che gli strumenti di machine learning estraggano dati dal DWH da elaborare e alla fine dell’elaborazione passino la probabilità calcolata nuovamente al DWH per aggiungere informazioni alle tabelle del db stesso.
A riprova di questo, si riscontra una tendenza nuovo nel mondo della business intelligence. Molti software di più (come SAP Analytics Cloud, Power BI, Tableau ecc) hanno iniziato ad implementare funzionalità di AI per permettere di coniugare analisi di BI e di predictive analytics nello stesso strumento.
Ovviamente si tratta di primi approcci a questo “nuovo mondo” e non mettono, ancora, a disposizione tutte le funzioanlità e gli algoritmi di Machine Learning ma è sicuramente un indizio significativo sulla direzione che si sta intraprendendo e soprattutto sulla necessità di rendere compatibili e collaborative le analisi su dati storici e su previsioni future
Un esempio classico di questo interscambio di informazioni potrebbe essere rappresentato da un DWH che raccoglie le informazioni (anagrafiche e transazionali) della base dei clienti tenendo traccia ad esempio della durata di vita del cliente, del numero e importo di transazioni, della situazione creditizia del singolo cliente corredate da tutte le informazioni anagrafiche raccolte dall’organizzazione. Tali dati vengono raccolti e strutturati all’interno di una tabella (per semplificare l’esempio) del DWH.
Con tale data set è possibile ipotizzare di costruire un algoritmo di machine learning (come ad esempio un albero decisionale) per indagare sulle principali motivazione di churn dei clienti, ossia sui motivi che portano più spesso i clienti ad abbandonare l’azienda.
Questo algoritmo potrebbe essere implementato su un software differente e specifico di ML (come ad esempio Knime, phyton, R, Amazon SageMaker ecc). Si partirebbe con l’estrazione delle informazioni dal DWH, poi si passerebbe all’elaborazione l’algoritmo e alla restituzione al DWH la medesima tabellina con l’aggiunta di una colonna che ad esempio mostri la probabilità % di churn da parte del cliente.
Sono un consulente di Business Intelligence,lavoro con uno dei software di Business Intelligence più importanti e completi sul mercato che è SAP BW (da poco diventato BW4HANA), e ho avuto modo di lavorare con grandissime realtà nazionali ed internazionali.
In tutte queste realtà ho avuto modo di entrare nella vita aziendale conoscendone i processi, i problemi, e le necessità e di relazionarmi con key user, decision maker, manager e personale operativo per riuscire a costruire report e dashboard che facilitassero il loro lavoro e permettessero in pochissimi click di ottenere tutte le principali informazioni sull’andamento della società.
Ho iniziato a fare divulgazione sul tema Business Intelligence per spiegare anche ai non addetti ai lavori quanto sia importante ragionare sempre in funzione di dati e come sfruttare la tecnologia per prendere decisioni migliori.
Le informazioni hanno un valore inestimabile e sono la cartina al tornasole di qualsiasi business mentre i dati da soli sono solo numeri!