Tutti parlano di Big Data, ormai da vari anni, e anche in Italia se ne parla costantemente, come se fosse scontato cosa siano e a cosa realmente possono servire. Intanto la definizione è parecchio imprecisa, per ‘Big’ cosa si intende e soprattutto grande rispetto a che cosa? Si conviene infatti, che tutti siamo sommersi da dati di ogni sorta, si parla addirittura di ‘diluvio dei dati’, ma quando sorge il problema della loro gestione rispetto ai sistemi informativi ai quali siamo abituati nelle aziende e nelle pubbliche amministrazioni, i dubbi crescono.
È qui che entra il concetto di ‘cloud’, se i dati di cui abbiamo bisogno non stanno sui nostri computer personali quello che attualmente facciamo è di spostarli sul Cloud. Oggi in molti casi lo facciamo a prescindere dalle dimensioni, per pura comodità e resilienza, visto che nel Cloud sono potenzialmente al sicuro e ben protetti da possibili cancellazioni accidentali.
Se consideriamo che la dimensione tipica delle memorie di massa dei nostri PC è dell’ordine del Terabyte (TB vale 1.000 gigabyte (GB) o 1.000.000 di megabyte (MB)) possiamo cominciare a dire che il problema dei Big Data comincia a porsi quando andiamo alla scala successiva dei Petabyte (PB vale 1.000 TB). Parliamo genericamente di ordini in grandezza, giusto per dare un’idea di massima, senza formalizzarsi su numeri precisi.
Ma cos’è realmente il Cloud e come vi accedono le aziende per le proprie attività di business? Il mercato del Cloud Computing/Storage è in grandissimo sviluppo ed è appannaggio delle grandissime aziende, che tramite i loro Data Center forniscono servizi a tutte le altre aziende che non si possono permettere sistemi informativi propri dotati di queste avanzate tecnologie.
Storicamente il primo player è stato Amazon con il suo servizio Amazon Web Services (AWS), poi sono seguiti Microsoft con Azure e con un certo ritardo Google con la sua Google Cloud Platform (GCP). Ci sono servizi online molto grandi, come i vari Social Network: Facebook, Twitter che hanno le loro infrastrutture, ma non le rivendono a terze parti. Tutti gli altri, anche servizi grossi come Netflix si servono di uno o più dei tre player sopracitati.
E qui sorge il problema, soprattutto per le PMI, ma devo dire anche per grandi realtà avanzate nel mondo Digital in Italia. La cultura tecnica e le possibili applicazioni business di queste tecnologie non è così diffusa e oggettivamente in prima battuta non sono sempre chiari i benefici che può portare. In particolare si parla molto di Intelligenza Artificiale senza porsi prima il problema dei dati. Si parte sempre dalla parte sbagliata. C’è una grande enfasi sulle tecnologie di Machine Learning e molto meno sull’expertise dei sistemi Cloud, per i quali occorrono spesso delle certificazione e degli specialisti ad hoc, i Data Engineer. La proposta vincente cerca sempre di mettere assieme questi due mondi e se oggi si dovesse dare una priorità questa sarebbe, sicuramente in Italia, per l’aspetto ingegneristico e della Data Governance.
E come sempre occorre avere una propensione all’investimento e credere nell’innovazione tecnologica come possibile fattore competitivo, non necessariamente nel breve termine. In molti casi il vero impatto si ha nel medio periodo, e per questo occorre avere un tipo di cultura imprenditoriale che non sempre è presente, soprattutto nelle PMI, che sono le aziende che potenzialmente potrebbero essere più impattate.
Per tutte queste ragioni un approccio consulenziale tradizionale non è quasi mai possibile. Si lavora nel dominio dell’incertezza, e per mitigare i rischi dell’incertezza l’unica via è innovare anche nell’approccio consulenziale, immaginando nuovi processi di accompagnamento del cliente. Il metodo in se stesso deve prevedere una fase di ‘upgrade’ culturale, di formazione continua, di ‘training on the job’ per il personale, che non si risolve di certo con l’acquisizione di una risorsa strettamente tecnica come quella del Data Scientist.
Sentiamo spesso dire da qualche imprenditore: “adesso mi prendo un bravo Data Scientist’ e risolvo il problema dei dati in azienda, che è un doppio errore, perché innanzitutto una figura così tecnica non è in grado di connettersi efficacemente col business, se non sono presenti delle figure di raccordo, e in secondo luogo perché prima di parlare di Machine Learning e Artificial Intelligence, nelle aziende occorre affrontare alla radice il problema dei dati: dove sono, in che sistemi informativi aziendali, con che policy di accesso e in che formati? Quante volte vi è capitato di sentire dal responsabile delle ‘operations’ la frase: “dove sono i nostri dati? Vorrei vederli…”.
In un quadro tecnologicamente poco evoluto l’arrivo di un Data Scientist potrebbe anche far sorgere dei problemi insanabili di coordinamento. Il punto di fondo parte dall’idea di creare team misti, consulenti e figure aziendali con alta competenza i dominio, che lavorino in cicli brevi, preferibilmente in modalità Agile/Scrum, con obiettivi a orizzonte temporale breve/medio e deliverable azionabili nell’arco di pochi mesi se non settimane. La progettazione nasce strada facendo, sempre mantenendo un quadro infrastrutturale chiaro e definito nelle linee generali su cui poggiare lo sviluppo dei nuovi processi, ma lasciando ampio spazio al rimaneggiamento del ‘backlog’ a seconda degli scenari che si presentano mano mano. Una sorta di pacchettizzazione del servizio consulenziale che segue anche la parte economica, con cicli di fatturazione brevi, che non impegnano eccessivamente il cliente, e gradualizzano lo sforzo finanziario.
È quello che nel nostro piccolo stiamo cercando di fare in Linkalab con il servizio Data Science as a Service, rivolto in particolare alle PMI ma che non disdegna di accompagnare anche le grandi realtà. È una strada che sarebbe auspicabile intraprendessero anche altre aziende di consulenza del settore per creare una nuova cultura legata al mondo dei Big Data e alle sue applicazioni business.