Quando nel 2008 iniziai la mia carriera di ricercatore nel campo delle reti complesse per poi diventare ufficialmente data scientist presso Linkalab, Yahoo! aveva ormai iniziato ad usare la tecnologia offerta da Hadoop già da due anni.
Noi guardammo da subito con molto interesse questo nuovo approccio distribuito ai dati e nel 2010 iniziammo a sperimentare con installazioni locali sui nostri sistemi di calcolo.
Con una semplicità mai vista prima, poche righe di codice scritte in python riuscivano ad analizzare dataset delle dimensioni del TB!
La configurazione del sistema era molto semplice e i comandi di base del file system distribuito permettevano in modo assolutamente trasparente di partizionare i dataset sui vari nodi del cluster.
Le possibilità diventavano infinite.
Contemporaneamente si stavano sviluppando anche i provider di servizi su Cloud e nel 2012 il servizio di storage distribuito di Amazon S3, aveva già memorizzato più’ di 10 miliardi di oggetti.
Le analisi di tipo Big Data diventavano sempre più alla portata di molti e le sorgenti di dati sul web iniziavano a diversificarsi in modo sempre più veloce.
Poco meno di un anno prima, infatti, l’introduzione dell’app mobile per Twitter, ad esempio, aveva portato gli utenti della piattaforma di messaggistica a quota 150 milioni (fonte) mentre Facebook, che nel mondo del mobile era già presente dal 2006, era ormai arrivato a superare i 350 milioni di utenti (fonte).
Piattaforme social e comportamenti
L’incommensurabile quantità di messaggi prodotti quotidianamente da questi utenti nelle molteplici espressioni dei json restituiti dalle API permetteva di studiare la strategia perfetta per la campagna elettorale che ha portato Obama a essere riconfermato presidente degli Stati Uniti nel 2012, dando il via alle Social Media Election e postando il tweet più condiviso di sempre per diverso tempo nel quale festeggia la rielezione con una foto insieme alla moglie Michelle e la storica frase “Four more years”.
Anche i dati delle semplici ricerche degli utenti sul motore di ricerca di Google mostravano di avere sempre più valore in termini di impatto sulla vita socio-sanitaria delle popolazioni a livello mondiale.
Già nel 2009, applicando un modello di simulazione stocastico globale di diffusione di un’epidemia integrato a tre tipologie di dati, le informazioni sulla popolazione, le reti di mobilità e le caratteristiche sulla velocità di diffusione, si era riusciti a prevedere come, dove e quando il virus dell’H1N1 si sarebbe diffuso in 220 paesi (source).
Nel 2013 questi risultati, convalidati da dati raccolti in 48 paesi, incoraggiarono l’uso di grandi database per stimare in tempo reale picchi di contagi di epidemie, sottolineando comunque che la qualità delle previsioni dipende sempre dalla qualità e di dati a disposizione.
Tali previsioni portarono all’utilizzo sempre più frequente di framework come Google Flu Trends, basato sull’osservazione di un picco nelle ricerche in Google con termini legati all’influenza, come “sintomi influenzali” e “trattamenti dell’influenza”, esattamente prima di un aumento nel numero di pazienti che si rivolgevano al medico perché contagiati dal virus dell’influenza, per il monitoraggio dell’influenza H3N2 che in quell’anno stava mietendo notevoli vittime nell’intera America.
Monitorando le query poste ai motori di ricerca online si è riusciti a calcolare il livello settimanale di contagi d’influenza in ogni stato degli USA, con uno scarto temporale pari ad una giornata.
La conclusione dello studio è stata che le ricerche online possono rilevare epidemie d’influenza in aree con un’elevata percentuale di utilizzatori del Web.
Google Flu Trends aggregava i dati delle ricerche, rese anonime, fatte su Google dagli utenti interessati ad avere informazioni sanitarie sui sintomi influenzali, e stima il numero di persone realmente contagiate dal virus dell’influenza nelle varie parti del mondo
Il programma è stato poi chiuso nel 2015 a causa dei troppi errori dovuti alla scarsa considerazione di fattori esterni.
Open data e Covid-19
Attualmente, per il caso del Covid-19, i dati che vengono processati dai nuovi sistemi come BlueDot sono relativi al flusso del traffico aereo, i rumors dei forum e dei siti di informazione e anche i report sulle malattie che colpiscono gli animali.
I dati dei social in questo tipo di analisi non sono stati presi in considerazione perché considerati troppo confusi.
Anche in Linkalab abbiamo sviluppato diverse analisi per il marketing permettendo ad aziende di ottimizzare campagne e massimizzando le conversioni.
Sempre relativamente all’emergenza Coronavirus, si è osservato in questo momento di crisi uno sforzo importante a livello mondiale per la realizzazione di sistemi di condivisione dati che rispettano le caratteristiche degli Open Data.
Fin da subito la protezione civile ha messo su sistemi di storage basati su Cloud a disposizione di tutta la popolazione, i dati giornalieri della diffusione dell’epidemia in Italia con diversi livelli di aggregazione temporale e spaziale (github) in formati utili per il processamento automatico da parte del Programmable Web.
Questo ha permesso a chiunque, in tempo reale, di potersi cimentare nello studio delle famose curve di diffusione dell’epidemia alla ricerca della previsione migliore sul momento in cui avremmo raggiunto il punto del picco, incrociando i dati di tantissime fonti e tipologie diverse
Ad esempio, uno studio che combinava i dati della diffusione spaziale dell’epidemia con le fasce delle zone di umidità del pianeta ha mostrato come sembri realistico che il virus sopravviva soltanto in una specifica fascia di valori di umidità.
Tutto il mondo, in questi mesi, semplicemente guardando il telegiornale, ha sperimentato il valore degli Open Data, dell’uso di formati dati condivisi come il JSON o l’XML, del poter disporre di Data Catalog con le descrizioni specifiche di come i dati sono stati ottenuti, quale significato è da associare ai diversi attributi dei campi, quali distribuzioni presentano e con quali correlazioni e altro ancora.
Un assaggio, insomma, dei concetti che i dati presenti nel mondo sconfinato del Semantic Web hanno integrato perfettamente ed esteso al massimo del loro potenziale per permettere l’analisi incrociata di tutto il sapere disponibile in rete tramite interrogazioni non più legate al “poco umano” concetto di join tra tabelle di un database ma di interconnessioni tra concetti astratti semantificati secondo categorie e gerarchie in quello che potremmo definire “il pensiero della rete” e che permette di acquisire nuova conoscenza semplicemente grazie alle naturali interconnessioni presenti già in origine nei dati stessi.