Il mondo dei dati è molto ampio, si parla di Big Data riferendosi generalmente alla grande massa dei dati prodotti dai sistemi sociali online e dai dati generati dai grandi siti web, incluso il motore di ricerca di Google. Dei dati ‘pubblici’, intendendo con questi i dati ai quali possiamo accedere liberamente, tramite svariate interfacce web e app, in genere possiamo averne solo una piccola porzione.
Nonostante siano in gran parte prodotti da noi i servizi ‘scontano’ nei nostri preziosi dati personali per darci accesso ai loro servizi, che di fatto sono la merce di scambio per una subscription solo apparentemente gratuita. Il prezzo minimo reale che paghiamo è essere soggetti a pubblicità mirate e eventuale vendita di dati. Qualche dato riusciamo a prenderlo, servizi come Twitter hanno dei metodi programmatici di accessi ai dati dall’esterno, le famose API (Application Programming Interface), tramite le quali possiamo accedere a porzioni di dati di tutti gli utenti iscritti in queste piattaforme sociali.
Google, dal canto suo, forte della grande massa di statistiche di richiesta di parole chiave del suo motore di ricerca, offre il servizio Google Trends, utilissimo per capire quali sono i temi più caldi e i personaggi più gettonati in un certo momento del tempo e in specifiche zone geografiche.
Poi c’è ovviamente tutta la pletora dei siti Open Data delle istituzioni statistiche ufficiali (ISTAT ed Eurostat, in Italia e in Europa), i repository delle municipalità più innovative, i dati economico-finanziari della World Bank, e così via. Tutte queste citate sono fonti di dati preziose ma da sole non possono aggiungere un particolare valore alle aziende che non sappiano coniugare con i propri dati interni, quelli strettamente proprietari che nessun’altra azienda può avere.
Il cosiddetto Data Mashup è quindi la tecnica di creare valore dall’unire dati esterni con dati interni, provenienti dai sistemi informativi aziendali, che possano creare quel mix magico altrimenti non raggiungibile. Facciamo qualche esempio. Nell’ambito di una ‘Customer Data Platform’ (CDP), se potessi arricchire i dati dei miei clienti, che ottengo da regolari pratiche di acquisizione tramite il sito di e-commerce, con flussi di dati social, nei quali i miei stessi clienti si esprimono liberamente, su temi e prodotti non necessariamente legati a quello che io offro, avrei una visione più ampia che potrebbe darmi degli insight per vendere meglio quello che già vendo, per aumentare la retention, per arrivare ad attività di ‘up/cross selling’.
In un ambito completamente diverso, per esempio quello dell’IoT (Internet of Things) di apparati e sensori di misurazione su impianti idrici (pressioni temperature, composizione a queste su tutta la rete idrica e sui bacini degli acquedotti), potrei immaginare di sovrapporre i dati pubblici del meteo.
Questo livello descrittivo ulteriore mi aiuterebbe a capire e potenzialmente prevedere meglio eventuali anomalie dovute per esempio a eventi temporaleschi con abbondanza di precipitazioni o viceversa, per fenomeni di surriscaldamento atmosferico, un fenomeno di siccità e quindi di mancanza d’acqua rispetto a uno standard che non consideri la variabilità climatica.
Com’è evidente, questo ‘mashup’ di dati può creare la giusta miscela informativa che pone l’azienda in una posizione di vantaggio rispetto alle aziende concorrenti, se non addirittura in alcuni casi, la possibilità di creare nuovi prodotti o servizi che non erano presenti sul mercato.
Tutto ciò che abbiamo finora descritto si riferisce alle dinamiche di business, ma come sempre ci sono delle implicazioni tecnologiche.
Infatti, al di là degli aspetti infrastrutturali che oggigiorno si risolvono con le piattaforme cloud, c’è un serio problema di armonizzazione delle fonti dati che per quanto descritto sono fortemente eterogenee. Questa problematica passa sotto il nome di ‘Data Mesh’ (il Data Mashup citato prima, lo possiamo considerare un concetto di più alto livello nei processi business) e secondo una definizione proposta da IBM lo possiamo così descrivere: “un’architettura di dati decentralizzata che organizza i dati in base a uno specifico dominio di business – ad esempio marketing, vendite, servizio clienti e altro ancora – fornendo maggiore proprietà ai produttori di un determinato dataset.”
Questa nuova e promettente prospettiva implica un lavoro di consolidamento semantico che deve essere guidato dalle specifiche esigenze di business del verticale scelto e una fondata condivisione in azienda tramite tassonomie e vocabolari condivisi, che coinvolga tutti i principali attori manageriali, anche se appartenenti a funzioni aziendali diverse.
Come in molti altri casi, anche in questo il fenomeno dei dati indice uno sgretolamente delle barriere tra i diversi dipartimenti e non tutte le aziende sono pronte a fare questo passaggio. Conta la cultura aziendale e sicuramente un passaggio di formazione interna può creare il giusto terreno per poter coltivare queste nuove prospettive tecnologiche.