La diatriba tra Big Data e Small Data, cosa sia più “azionabile”, cosa contenga il maggiore potere informativo e creare ricchezza, è un tema spesso dibattuto nella comunità dei Data Scientist e nei dipartimenti di business delle aziende più “data driven”. Siamo tutti affezionati ai cari vecchi Small Data, come un bel dataset in formato Excel, con le colonne commentate, con qualche valore da sistemare come tipo di dato, con qualche buco qua e là, tutto da sempre chiaro per noi e pronto per una bella sessione di Business Intelligence.
La nuova ondata dei Big Data è stata da molti vissuta male. Come prima cosa: “non ci stanno neanche in un foglio Excel” e anche se ci stanno tutto è troppo pachidermico e lento. C’è un problema di manegevolezza e di angustia ogni volta che ci arriva una presa dati da qualche Social. Per non parlare dei formati: “come lo metto un Json in una tabella di un foglio elettronico?”
Avere a che fare con i Big Data sposta di molto il paradigma e non vale più solo il detto “less is more”, ma anche il più recente “more is different”, citando il fisico americano, premio Nobel, P.W. Anderson, uno dei padri della Scienza della Complessità. Nell’abbondanza c’è spesso una qualità aggiuntiva, i sistemi di grandi dimensioni possono presentare delle caratteristiche che non sono semplicemente proporzionali alle loro dimensioni, ma hanno qualcosa di più che deriva dalle possibili connessioni/relazioni tra la varie parti del sistema, che non crescono linearmente con il numero di componenti.
È quello che si definisce approccio olistico, che si contrappone al paradigma riduzionistico. Questo tipo di Complessità è ben descritto tramite la Teoria delle Reti (Network Science), e di recente si incontrano sempre più spesso applicazioni, anche in ambito business. Noi di Linkalab, che abbiamo come payoff l’inequivocabile dizione “Complex Systems Computational Laboratory”, abbiamo applicato la Network Science al Marketing, alle organizzazioni aziendali (la famosa Organizational Network Analysis), alle reti infrastrutturali, per arrivare in ambito comunicazione alle reti semantiche e ai Knowledge Graph.
Il discorso non si esaurisce però solo sugli aspetti paradigmatici. Ci sono molti aspetti pratici che vanno considerati implicando anche l’introduzione di nuovi strumenti. Con gli Small Data la preparazione dei dati per il Business Analyst poteva essere differenziata in almeno due fasi.
Da un lato la preparazione, magari fatta da uno specialista del dipartimento, che faceva una query verso un database e dall’altra il caricamento ed estrazione delle informazioni da parte di un Business Analyst. Con i Big Data è molto più difficile separare le due fasi e la prima parte di estrazione dati è molto più onerosa e soprattutto real-time..
È difficile fissare in un particolare momento una presa dati nel momento in cui i flussi sono massivi e continuativi. Occorrono sofisticate procedure ETL (Extract, Transform, Load) che insistono su sistemi Cloud che accumulano stream di grandi quantità di dati e la connessione con la parte di Data Analytics, che sia una semplice statistica descrittiva o un sofisticato algoritmo di Machine Learning, non può essere logicamente distinta dalla fase precedente.
Cambiano molto anche gli strumenti, come dicevamo, non più tipicamenti fogli elettronici e database relazionali, ma grandi dataframe da leggere con Pandas e database no-sql come MongoDB, se non grandi “blob” Json da interrogare con una query Athena.
Tutto questo stack di sviluppo e analisi, in una buona parte deve essere dominato anche dal Business Data Analyst, che non sempre può demandare il lavoro a un tecnico specializzato, tipicamente un Data Scientist. L’interazione tra queste figure a diversi livelli di approfondimento tecnico, non avviene attraverso una cerniera netta, ma ci sono ampie sovrapposizioni tra i due campi.
Per mantenere una buona efficienza in questi processi, oltre ai singoli strumenti, aggiornati ai tempi dei Big Data, occorrono anche nuove piattaforme di interazione, che mettano in comunicazione tutte le figure coinvolte nella pipeline del trattamento del dato e della sua elaborazione con algoritmi AI/Machine Learning.
Una delle più accreditate è sicuramente Dataiku (https://www.dataiku.com/), ma anche noi di Linkalab abbiamo in serbo delle nuove idee che si stanno per concretizzare in una Startup, che si distingue per l’approccio rispetto all’offerta corrente. Ne parleremo presto in un prossimo articolo.