Quando parliamo di Data Science pensiamo sempre ad applicazioni lontane dalla nostra realtà ma, in fondo, non è proprio così. Ci sono molte persone che associano strettamente il mondo dei dati a problemi di privacy, fughe di dati e tecniche di massimizzazione dei profitti. Inoltre, termini come data science, analytics, statistiche, database ecc.., sono quelli che la maggior parte delle persone associa esclusivamente al mondo professionale.
In realtà, tutti questi termini e molti dei loro termini associati non sono pensati solo per i professionisti della scienza dei dati. In realtà, la maggior parte delle persone sperimenta il ruolo della data science nella propria vita quotidiana e in quasi tutte le situazioni. Dai suggerimenti di nuovi amici di Facebook all’aiuto di Google per completare una frase di ricerca ai programmi televisivi previsti da Netflix in base alle tue preferenze e molti altri: la scienza dei dati viene utilizzata dalla gente comune in quasi tutte le situazioni.
Netflix sviluppa e cura programmi altamente mirati estraendo le preferenze dei clienti e i modelli di comportamento dai loro database. Personalizza la watchlist in base agli attori, ai generi, ecc.. del momento sfruttando i dati dei clienti e le abitudini di visualizzazione. Anche Spotify attinge ai dati dei clienti per personalizzare la playlist settimanale. Tutti i motori di ricerca come Google, Bing, Yahoo, AOL, Ask ecc.., sfruttano gli algoritmi della scienza dei dati per ottenere i migliori risultati per la query cercata in una frazione di secondo. Senza la presenza della scienza dei dati, questi motori di ricerca non sarebbero stati gli stessi che conosciamo oggi. Le piattaforme di shopping online hanno a disposizione enormi quantità di dati sui clienti per comprendere e apprendere modelli di acquisto, preferenze e gusti e, sulla base di questi, sviluppano consigli di acquisto personalizzati per i consumatori.
Anche in ambito sanitario, ora tutti possono monitorare il proprio stato di salute senza doversi recare ogni volta in clinica. Gli anziani ad esempio possono monitorare facilmente la propria salute con l’aiuto della tecnologia di monitoraggio remoto, il cui successo dipende dal ruolo della scienza dei dati. Qualsiasi anomalia e fluttuazione della loro salute viene trasmessa agli operatori sanitari sotto forma di messaggi o avvisi, consentendo così ai medici di prescrivere trattamenti in tempo reale.
I prodotti di riconoscimento vocale come Alexa, Siri, Google Voice, Cortana ecc.. stanno diventando sempre più popolari. Anche se non sei in grado di comporre un messaggio, puoi gestirlo con l’aiuto della funzione di riconoscimento vocale. Tutto quello che devi fare è pronunciare solo il messaggio e verrà convertito in testo.
Tutti gli smartphone ormai hanno a disposizione un sistema di riconoscimento facciale che permette di aumentare la sicurezza del dispositivo. I modelli attuali, grazie anche all’enorme quantità di dati a disposizione, sono oggi in grado di distinguere con una altissima precisione anche le espressioni facciali, dai sorrisi al pianto. Anche nel mondo dei videogiochi, tutti i principali sviluppatori di giochi come Nintendo, Sony etc.. utilizzano la scienza dei dati per portare l’esperienza di gioco a un altro livello. Ora i giochi sono progettati con l’aiuto di algoritmi di apprendimento automatico in grado di aggiornarsi man mano che un giocatore passa a un altro livello.
Da un punto di vista aziendale possiamo dire che la data science è estremamente pratica e utile; infatti, se anche l’azienda non avesse una particolare maturità dal punto di vista scientifico e tecnologico, l’inserimento di modelli di data science nelle normali attività aziendali può comunque essere di supporto in quanto è in grado di ottimizzare i processi di produzione e quindi portare al corretto sfruttamento delle risorse disponibili.
Attività che infatti l’azienda magari svolge ancora manualmente tramite il team degli analisti, come ad esempio:
- il copia e incolla di un testo da un sito esterno;
- la traduzione di un testo;
- l’individuazione del sentiment dei clienti da milioni e milioni di recensioni.
La data science permette di farle quasi con un click. Infatti se una risorsa deve usare 4 dei suoi 5 giorni lavorativi a labellizzare dei contenuti per poi avere a disposizione solo l’ultimo giorno per fare il report, allora questo vuol dire che ha speso l’80% del suo tempo solo a preparare i dati per l’analisi, e questo è controproducente.
Quando, invece, è presente un modello di data science in esecuzione automatica questa può fornire in automatico, ad esempio, la sentiment dei testi che ha processato permettendo di poter sfruttare al massimo le competenze degli analisti che avrebbero di nuovo a disposizione la quasi totalità del loro tempo disponibile per applicare tutte le metriche di analisi necessarie per estrarre il massimo dell’informazione dai dati.
L’ottimizzazione dei processi poi non si deve pensare soltanto relativa a processi già noti e consolidati ma anche ad ambiti nuovi e ancora, in parte, sfidanti, come ad esempio la Topic Detection o la Named Entity Recognition (NER). Tutte queste analisi restituiscono in automatico dei risultati che effettivamente si potrebbero ottenere anche manualmente ma con uno sforzo enormemente superiore.
Inoltre, il fatto di poter disporre di un sistema automatico di analisi di queste grandezze (sentiment, topic, entità, etc..) permette di avere anche un maggior controllo e riscontro sulla qualità dei risultati ottenuti perché non sarebbero più influenzati dall’interpretazione soggettiva dell’analizzatore che in quel momento sta cercando di interpretare i risultati ma sarebbero il risultato dell’addestramento oggettivo di modelli di intelligenza artificiale, esenti dunque da un bias legato al soggetto umano.
In aggiunta a quanto detto, infine, una volta che il processo è ottimizzato, per sua natura è anche più comprensibile e ordinato: è in quel momento che si possono individuare più facilmente degli insight di business che per l’azienda sono rilevanti e che altrimenti non sarebbe possibile scorgere.
Ma se tali applicazioni vengono adottate, a volte inconsapevolmente, nel mercato consumer, come possono essere sfruttate anche nel mondo del business?
Se pensiamo, ad esempio, ai sistemi di raccomandazione, questi sono una delle applicazioni più di successo del Machine Learning e sono utilizzati in tantissimi scenari per agevolare l’utente (quindi il consumer, o consumatore) nell’esplorazione dei vasti cataloghi di articoli a sua disposizione, siano essi film, musica, libri, notizie, contatti, offerte di lavoro, ristoranti, luoghi da visitare, ecc..
Ormai è assodato che l’utilizzo di questi sistemi non solo è di supporto per il cliente, che trova più facilmente i contenuti che gli interessano, ma comporta degli importanti benefici economici per il fornitore di servizi proprio perché migliora la soddisfazione dell’utente. Nel contesto economico odierno, dunque, i sistemi di raccomandazione rappresentano uno strumento utile al fine di aumentare le vendite con pubblicità e promozioni su misura per ciascun utente. Questi sistemi, inoltre, proprio perché suggeriscono dei prodotti o servizi a potenziali consumatori o, in generale, ad utenti, hanno un grande potere di condizionare le scelte di questi ultimi e di modificare, in alcuni casi, il ciclo di vita dei prodotti.
Nel 1988, un alpinista britannico di nome Joe Simpson scrisse un libro intitolato “Touching the Void” , un racconto straziante della pre-morte nelle Ande peruviane. Ottenne buone recensioni ma, solo un modesto successo, fu presto dimenticato. Poi, un decennio dopo, accadde una cosa strana. Jon Krakauer ha scritto “Into Thin Air” , un altro libro su una tragedia di alpinismo, che divenne un successo editoriale. All’improvviso Touching the Void aveva ricominciato a vendere. La richiesta di ”Touching the Void” era così alta che dopo un po ‘di tempo ha persino superato la vendita di ”Into Thin Air”.
Ma cosa è successo esattamente qui? Bene, alla fine si scoprii che, poiché entrambi i libri erano basati sullo stesso tema, Amazon aveva suggerito che i lettori a cui piaceva ”Into Thin Air” avrebbero voluto avere anche ”Touching the Void”. Quando le persone hanno accolto i suggerimenti, hanno effettivamente apprezzato il libro e, di conseguenza, hanno scritto recensioni positive che hanno portato a un aumento delle vendite, portando infine a più raccomandazioni e quindi dando il via a un ciclo di feedback positivo. Questo è il potere dei sistemi di raccomandazione.
A me piace citare come esempio quello dei sistemi di raccomandazione perché anche io, come Data Scientist di Linkalab, ho lavorato in prima persona allo sviluppo di un Sistema di Raccomandazione che ci è stato commissionato da uno dei principali player dell’innovazione in Italia che è anche uno dei più importanti network di coworking digitale in Europa.
Questa società di coworking aveva necessità di promuovere le interazioni tra i suoi iscritti non solo tramite l’interazione fisica data dall’avere posti di lavoro condivisi, un punto di incontro comune al bar e simili, ma anche tramite un sistema automatico che suggerisse periodicamente nuove proposte di contatto basate non solo su interessi professionali comuni, come accade per esempio su Linkedin, ma anche personali.
Siccome l’obiettivo principale era alimentare la crescita del network di interazione, si voleva evidenziare che gli aspetti più importanti in questo tipo di processi di amplificazione delle relazioni non sono legati principalmente a quello che fai nel lavoro ma a quello che sei: nello stesso settore, ad esempio, si possono incontrare 10 persone ma a livello empatico normalmente si riesce a entrare in contatto a malapena con due di loro in quanto magari solo queste presentano diverse similitudini con l’utente che sta cercando di instaurare nuovi contatti, mentre con le altre 8, che hanno caratteristiche diverse, è molto difficile riuscire a far scattare un feeling.
Il fatto che ci siano quindi interessi personali, come ad esempio la fotografia, diventava un elemento fondamentale nel sistema di raccomandazione perché magari accadeva proprio andando a vedere una mostra o a prendersi un aperitivo insieme che poi scattava alla fine il consolidamento del nuovo link, e non stando in ufficio a cercare in mezzo ai Curriculum o ai profili di Linkedin.
Un esempio molto interessante non solo a livello di ricerca ma, soprattutto, a livello consulenziale, è legato invece a un importante progetto che stiamo portando avanti ormai da diversi anni per una grande multinazionale sul tema della Brand Reputation Online, che è una analisi che permette di valutare la considerazione di cui un marchio gode tra gli utenti di Internet in virtù della sua capacità di soddisfare le aspettative del pubblico nel corso del tempo.
Per tenere sotto controllo la propria reputazione online è fondamentale una costante attività di monitoraggio delle varie piattaforme su cui possono nascere conversazioni attorno al proprio marchio. Si tratta del cosiddetto Brand Reputation Monitoring. Il web mette a disposizione diversi strumenti ad hoc, a pagamento e non, per catturare ogni menzione o parola chiave e per accedere all’ascolto di determinate conversazioni su siti internet e social network.
In questo campo ci si basa sul famoso detto “prevenire è meglio che curare” per cui, i sistemi di monitoraggio che noi abbiamo sviluppato e che stiamo continuando a sviluppare, sono in grado di attivare degli allarmi ogni volta che ci sono dei player importanti che parlano del brand in questione in modo da indicare la necessità di azioni specializzate nell’analisi del sentiment e delle emozioni su tutti i testi che sono stati raccolti relativamente all’argomento di discussione in oggetto.
Queste analisi, che cambiano la logica nella prospettiva dell’analisi dei dati, possono cambiare numerosi processi nelle aree di business più rilevanti per l’azienda, in quanto non solo forniscono soluzioni a fronte di singoli problemi, ma sono anche in grado di scovare opportunità generali e inaspettate. I dati da soli infatti non dicono nulla; l’approccio tradizionale porta a cercare i dati presenti nei sistemi, nelle serie storiche, e in alcuni casi esternamente, per identificare la soluzione di un problema.
Ascoltando invece costantemente e in modo massivo le discussioni sui social e gli articoli pubblicati su riviste e blog è possibile applicare un approccio più esplorativo, per studiare e ascoltare il dato in tutte le sue forme, in modo più esteso possibile. Non solo quindi quelli che si generano in azienda ma anche quelli esogeni che in apparenza possono non avere nulla a che fare con quelli del cliente.
Questi dati, quindi, correlati attraverso un approccio multidisciplinare, possono fornire informazioni inaspettate osservandoli attraverso una giusta correlazione. Questa filosofia aiuta anche i team di prodotto nell’elaborazione di soluzioni end to end: mettendo assieme, infatti, in modo agile diverse competenze di business, di data architetture e di data science si punta ad accelerare “la tempestività con cui si possono analizzare le opportunità e valutarle profittevoli o meno”.
Questo approccio sta dando già dei primi risultati per potere avviare la discussione internamente all’azienda, in termini di opportunità, per individuare fenomeni e costruire percorsi di valorizzazione in termini di nuovi servizi e modalità. In questo nuovo modo di vedere i dati, quindi, attraverso un approccio esplorativo, esteso e diffuso, l’azienda deve lancia la scommessa di comprendere, studiare ed ascoltare il dato in tutte le sue forme per individuare le vere domande da porsi e le opportunità di innovazione per il business, al contrario di quanto si fa normalmente nell’approccio tradizionale nel quale, a fronte di un problema, si costruisce sempre una soluzione “ad hoc”.
Da questa sintesi si capisce l’importanza dell’addestramento di opportuni sistemi di intelligenza artificiale basati sullo stato dell’arte dello sviluppo di modelli di Machine Learning e Deep Learning, come ad esempio i modelli Bert, specializzati nell’analisi del sentiment di un testo, che sono pre-addestrati su miliardi di testi e configurati tramite l’ottimizzazione di reti neurali con centinaia di milioni di parametri.
Come abbiamo detto, la Brand Reputation Online si basa sulla combinazione di diversi indicatori quindi, oltre all’analisi del sentiment, noi ci siamo occupati anche di tutta la parte relativa alla Named Entity recognition per l’individuazione degli stakeholder di interesse per il cliente con tool quali Spacy, ad esempio, che fanno uso di pipeline basate sui transformer e che permettono di sviluppare i propri modelli tramite i più famosi framework di sviluppo distribuito su scheda grafica come PyTorch e Tensorflow.
Tutto questo, per concludere, non sarebbe stato realizzabile a livello di produzione, senza un’opportuna progettazione anche a livello ingegneristico relativamente alla parte di acquisizione e gestione del dato, aspetto sul quale Linkalab è da sempre promotore in ambito didattico e divulgativo, nonché nella promozione di un approccio data driven verso le aziende che sentono il bisogno di innovarsi e rinnovare il loro modo di utilizzare i dati per aumentare il valore; per questo motivo abbiamo curato anche lo sviluppo dei connettori automatici che si occupano dello scaricamento in tempo reale dei testi prodotti da diverse sorgenti quali, ad esempio, i social network come Twitter e Facebook e le più importanti testate giornalistiche online internazionali, occupandosi anche di tutto quello che riguarda la traduzione automatica dei testi in lingue diverse dall’inglese e con caratteri non latini, come ad esempio l’arabo, il cinese o il giapponese, per predisporre alle successive analisi di cui abbiamo parlato prima.
Tutta questa enorme mole di dati che cresce di ora in ora non sarebbe facilmente gestibile, dal punto di vista della sua memorizzazione e interrogazione, senza l’utilizzo di architetture innovative come il Data Lake, che ci ha permesso di affrontare la risoluzione di questi problemi con approcci tipici del mondo dei Big Data.