Abbiamo visto nel post precedente: “Quali sono le prime 3 V associate ai Big Data?” che inizialmente ai Big Data erano state associate solamente 3 V: Volume, Varietà e Velocità.

A queste, nel tempo, sono state aggiunte anche altre che contribuiscono a caratterizzare ulteriormente gli aspetti più importanti di queste enormi raccolte di dati; vediamo quali sono!

Valore

Il valore è una variabile fondamentale perché l’importanza dei Big Data stessi sta nella possibilità di essere utili per le aziende e quindi di portare dei benefici; infatti i dati fini a se stessi non hanno alcuna importanza. 

Per essere davvero utili devono poter essere convertiti in informazioni preziose che permettono alle aziende di verificare ed eventualmente modificare le proprie mosse. Pertanto coloro che usano tutto il valore delle informazioni derivanti dai Big Data ottengono un vantaggio competitivo. 

Ed è proprio così che i dati degli utenti possono influenzare le decisioni aziendali, determinando come questa si debba muovere per ridurre, il fenomeno dell’abbandono degli utenti stessi, sviluppando “feature” che rispondano alle necessità di chi utilizza i propri servizi.

Veridicità 

La veridicità indica il livello di affidabilità o inaffidabilità dei dati, rivelando se abbiamo a che fare con dati reali oppure con dati falsati. 

Le masse di dati sono molto variabili e dinamiche e provengono da origini diverse. In parte si possono avere dei problemi diretti sulla veridicità dei dati legati all’affidabilità degli strumenti di misurazione, dei sensori, della sincronizzazione dei tempi e di eventuali dati fake inseriti da bot; oltre a questi problemi possono esisterne altri di tipo indiretto, a causa di una non corretta organizzazione dei dati per colpa della quale possono venire a crearsi incongruenze, ridondanze o inconsistenze nella gestione dei dati stessi che ne diminuiscono il valore di veridicità.

Dal momento che dalla veridicità dei dati, dipendono le decisioni che orienteranno il tipo di business ad essi associato, è importante innanzitutto che il campione sia rappresentativo del fenomeno che si vuole analizzare e che i dati raccolti dai social siano pertinenti con la ricerca in corso; verificato questo, è necessario sviluppare degli strumenti di verifica dell’auto consistenza delle informazioni per monitorare periodicamente che i dati raccolti rispecchino certi criteri di base che garantiscano la loro integrità: in prima approssimazione sicuramente si può controllare la presenza di dati non valorizzati in alcune righe o di date non pertinenti con l’intervallo di osservazione del fenomeno che si sta monitorando; per controlli più consistenti si possono applicare delle regole che verifichino la correttezza di alcuni dati di sintesi delle tabelle, come ad esempio il fatto che la somma di certe quantità sia sempre positiva o all’interno di un certo “range” e che la media in un certo intervallo di osservazioni non oscilli oltre un certo valore di confidenza o altro.

Visualizzazione

L’aspetto visuale è rilevante per prendere decisioni o per stimolarle. Gli insight devono essere rappresentabili efficacemente per poter acquisire valore per il business.

L’elaborazione dei Big Data infatti non è l’unico mezzo per ottenere un risultato significativo: se questi non sono rappresentabili o si possono vedere in modo significativo non ha senso analizzarli. 

Pertanto, i Big Data necessitano di strumenti appropriati per essere visualizzati: questi devono offrire la possibilità di configurare parametri diversi per aiutare i Data Scientist o gli analisti a comprenderli meglio.

Tuttavia, tracciare miliardi di punti dati non è un compito facile: gli attuali strumenti di visualizzazione dei Big Data devono affrontare sfide tecniche a causa delle limitazioni della tecnologia “in-memory” e della scarsa scalabilità, funzionalità e tempo di risposta. 

Per questo motivo questi strumenti si basano su diversi modi di rappresentare i dati tramite tecniche di clustering o l’utilizzo di mappe ad albero, grafici di tipo sunburst, coordinate parallele, diagrammi di rete circolari o alberi a cono.

Viralità 

Misura la capacità e la velocità di diffusione degli insight. La grande velocità di produzione e soprattutto il tempo di reazione a queste informazioni rappresenta la viralità delle conseguenze che possono derivare da esse. 

È definita come la velocità con cui i dati vengono trasmessi/diffusi da un utente e ricevuti da diversi utenti per il loro utilizzo.

I dati si diffondono in modo virale, così come le informazioni che si possono estrarre da essi. La grande quantità di dati e la velocità con cui essi vengono generati fa sì che le reazioni ad un evento si propaghino rapidamente e a grande distanza.

 

In alcuni articoli si trovano fino a 17 V associate ai Big Data! Se ad sei interessato approfondire, puoi leggere questo articolo di Panimalar et al. https://www.irjet.net/archives/V4/i9/ IRJET-V4I957.pdf.