Quando ci si avvicina per la prima volta al mondo dell’analisi dati e lo si vuole fare in modo professionale usufruendo delle possibilità offerte dal mondo dell’open source ci si può perdere nel mare degli innumerevoli software disponibili.

Alcuni tool offrono un’interfaccia grafica il cui funzionamento può essere più o meno semplice da intuire e il cui fine e utilizzo può non essere chiaro.

Altri richiedono lo studio di un linguaggio di programmazione e quindi delle competenze un po’ più specifiche.

In entrambe i casi è sempre importante scegliere il software più adatto in base al tipo e alla complessità del dataset che dovete analizzare e dell’analisi che dovete effettuare.

Per questo motivo ho selezionato un elenco di alcuni dei principali tool che noi in Linkalab usiamo regolarmente per le attività legate alla didattica, alla ricerca e allo sviluppo di soluzioni business.

Strumenti con interfaccia grafica

Per iniziare è sicuramente più facile partire dai tool con interfaccia grafica. 

In fase di pre-processamento dei dati può essere sicuramente di aiuto uno strumento come OpenRefine che permette di pulire i dati e trasformarli da un formato a un altro.

In particolare, questo fornisce dei tool molto potenti che permettono, ad esempio di:

  • riconciliare testi scritti in modo non sempre esatto per permettere il corretto clustering dei vari record del dataset;
  • formattare in modo standard date scritte in formati non standard per permettere analisi di tipo temporale;
  • separare dati atomici in dati non atomici e di filtrare sottoinsiemi dei dati tramite appositi strumenti grafici basati sull’analisi delle distribuzioni dei dati stessi.

La sua interfaccia di esplorazione dei dati inoltre permette in modo molto facile ai data scientist di effettuare operazioni avanzate anche su Big Data, come ad esempio l’applicazione di regular expressions per filtri molto specifici sui dati. 

Una volta pre-processati i dati, per un’analisi approfondita potete affidarvi a Orange3 che permette di sviluppare sistemi di data mining attraverso la programmazione visuale.

Con questo strumento è possibile realizzare modelli di Machine Learning e utilizzare add-on specifici per la bioinformatica e il text mining.

La programmazione visuale avviene tramite dei widget, che ormai sono più di 100, posizionati in un canvas e collegati tra loro in modo da realizzare un flusso di analisi dai.

I widget offrono delle funzionalità base come:

  • la lettura dei dati;
  • mostrare una tabella;
  • selezionare delle feature;
  • addestrare dei predittori;
  • confrontare algoritmi di ML;
  • visualizzare grafici e altro.

Il suo punto di forza è che memorizza le scelte fatte dallo sviluppatore, e suggerisce le combinazioni più frequentemente utilizzate.

Se il vostro dataset appartiene alla categoria dei Big Data allora è sicuramente di aiuto un tool come Knime. 

Tale strumento conta ormai più di 1000 diversi componenti di elaborazione per data mining, text analytics, modellizzazione, statistiche, machine learning, viste interattive, grafici e report.

La forza e la semplicità di Knime sono che può collegarsi a tool di storage e calcolo distribuiti come Hive ed Impala per compiere operazioni complesse direttamente su cluster Big Data, pulendo, organizzando e convertendo i dati necessari. 

Quando capita di dover affrontare l’analisi di reti complesse invece è molto utile affidarsi a un tool come Gephi.

Gephi permette di esplorare e comprendere la natura di un grafo manipolandone la struttura, le forme e i colori in modo da individuare pattern nascosti.

Questo strumento utilizza un motore grafico 3D per rappresentare grafi molto grandi in tempo reale e ridurre i tempi di elaborazione.

Gephi fornisce algoritmi allo stato dell’arte per il layout e l’analisi delle reti complesse, rivelandosi un perfetto alleato per addentrarsi nel mondo scale-free.

Anche la rappresentazione efficace dei dati ha la sua importanza nell’analisi, e per questo motivo è sempre bene saper creare qualche dashboard con Tableau Public.

Un’applicazione di data storytelling per creare e condividere grafici e diagrammi interattivi, splendide mappe e dashboard dinamiche che possono essere pubblicate sul web. 

Nel prossimo articolo ti illustrerò alcune librerie di calcolo per i principali linguaggi di programmazione: da Numpy e Scipy per Python fino ad alcuni Git interessanti per l’analisi di grafi!

Se invece vuoi approfondire queste tematiche direttamente con me, fissa una call!

 


Richiedi una consulenza