Oltre l’Analisi del Sentiment: Misurare il reale impatto degli SDG attraverso la Polarity Detection

SDG Polarity Detection: un approccio per misurare se un testo rappresenta un avanzamento, un arretramento o un impatto neutro rispetto agli SDG

Gli Obiettivi di Sviluppo Sostenibile (Sustainable Development Goals – SDG) delle Nazioni Unite forniscono un quadro di riferimento riconosciuto a livello globale per affrontare le principali sfide sociali, ambientali ed economiche. 

I recenti sviluppi nell’elaborazione del linguaggio naturale (NLP) e nei modelli linguistici su larga scala (LLM) hanno facilitato la classificazione automatica dei dati testuali in base alla loro pertinenza rispetto a specifici SDG. Il monitoraggio dell’Agenda 2030 dell’ONU richiede strumenti analitici in grado di processare moli di dati testuali con un’elevata precisione semantica. Sebbene la classificazione testuale rispetto ai 17 SDG sia un problema largamente esplorato, la mera associazione tematica è insufficiente per comprendere le reali implicazioni di un testo.

Per supportare governi, istituzioni e grandi corporate nel tracciamento reale delle iniziative di sostenibilità, il nostro team di ricerca ha affrontato una sfida complessa nel Natural Language Processing: la transizione dal generico Sentiment alla SDG Polarity Detection.

Il Problema Scientifico: Sentiment vs. Polarità

In uno dei nostri ultimi lavori di ricerca sviluppati in collaborazione con il dipartimento di Informatica dell’Università di Cagliari, Polarity Detection of Sustainable Development Goals in News Text, pubblicato ancora solamente come preprint su ArXiv ma attualmente in fase di revisione presso una importante rivista scientifica internazionale, dimostriamo come l’analisi del sentiment tradizionale fallisca sistematicamente nell’ecosistema degli SDG. 

Un testo può presentare un tono emotivamente positivo pur descrivendo una regressione rispetto a un obiettivo, oppure utilizzare un lessico negativo per denunciare un’ingiustizia, indicando in realtà un’azione a favore di un SDG.

La Polarity Detection richiede un’astrazione superiore: il modello deve comprendere se l’azione descritta nel testo implica un avanzamento (polarità positiva), un arretramento (polarità negativa) o una condizione ininfluente (polarità neutra) rispetto a uno specifico obiettivo di sviluppo sostenibile associato al testo che si sta analizzando. Si tratta di un task di classificazione single-label e multi-class che mette a dura prova anche gli attuali Large Language Models (LLMs) in contesti zero-shot (ossia senza esempi specifici per il task, ma basandosi esclusivamente sulla conoscenza generale del modello).

Innovazione Metodologica: Architetture Agentiche e il Benchmark SDG-POD

Il principale ostacolo allo sviluppo di algoritmi proprietari ad alta precisione in questo dominio è la carenza di dati annotati. Per superare questo limite, abbiamo progettato una pipeline basata su un’architettura agentica multi-LLM.

Abbiamo introdotto SDG-POD (SDG POlarity Detection), un dataset di benchmark inedito composto da 6.400 testi. Il cuore della nostra metodologia risiede nel framework di generazione del training set: abbiamo impiegato un ensemble di cinque LLMs eterogenei (inclusi Llama-3.1 e Mixtral) operanti attraverso un sistema di majority voting calibrato con euristiche specifiche per gestire i casi di disaccordo. 

Questo approccio ha permesso di generare dati sintetici altamente accurati su cui effettuare il fine-tuning, validando poi i modelli su un test set rigorosamente annotato da esperti umani (con validazione statistica tramite coefficiente K di Cohen).

Risultati: Superare i Limiti dei Modelli Off-the-Shelf

I risultati della nostra ricerca dimostrano chiaramente che l’approccio zero-shot non è sufficiente per task di tale complessità semantica. Tuttavia, il fine-tuning sui dati sintetici generati dalla nostra architettura agentica ha prodotto miglioramenti significativi.

Addestrando diversi modelli open-source, abbiamo osservato come architetture specifiche, in particolare il modello QWQ-32B, abbiano raggiunto le migliori performance. L’impatto più significativo si evince analizzando le matrici di confusione con metriche Error-Weighted F1: il nostro processo di fine-tuning ha abbattuto i “critical errors” (la pericolosa misclassificazione di un regresso scambiato per progresso, e viceversa), aumentando il divario prestazionale rispetto alla baseline da 2 a oltre 10 punti percentuali. Tali miglioramenti hanno superato i test di significatività statistica (McNemar test).

Dalla Ricerca all’Impatto Enterprise

La complessità del linguaggio legato alla sostenibilità limita l’efficacia dei modelli generici. Questo lavoro non solo introduce un nuovo benchmark per la comunità scientifica, ma dimostra il valore dell’approccio Linkalab: costruiamo pipeline di intelligenza artificiale custom, fondate su solide architetture di dati sintetici e fine-tuning mirato.