Un framework allo stato dell’arte per l’analisi della sicurezza e validazione dei sistemi agentici

Contesto: LLM + RAG nelle applicazioni reali

Negli ultimi anni i sistemi basati su Large Language Model (LLM) arricchiti con meccanismi di Retrieval-Augmented Generation (RAG) sono diventati un elemento chiave di molte applicazioni reali: assistenti virtuali, sistemi di supporto alle decisioni e, più in generale, architetture agentiche capaci di interagire con basi di conoscenza dinamiche. Tuttavia, come evidenziato anche dalla recente letteratura scientifica, l’introduzione del RAG amplia in modo significativo la superficie di attacco di questi sistemi.


Caso di studio: AGENTPOISON (NeurIPS 2024)

L’articolo AGENTPOISON: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases, presentato nella conferenza NeurIPS-2024 (https://neurips.cc/Conferences/2024), mette in luce una problematica particolarmente critica: la possibilità di avvelenare (poisoning) i dati di retrieval per indurre comportamenti malevoli o deviazioni controllate negli agenti LLM. In questi scenari, un attaccante non agisce direttamente sul modello, ma sfrutta la dipendenza dell’agente dalle informazioni recuperate, introducendo contenuti progettati per attivarsi solo in presenza di specifici trigger semantici. Questo rende l’attacco difficile da individuare con controlli superficiali o basati su semplici keyword.


Attività Linkalab: framework automatico di valutazione della sicurezza

Il dipartimento di ricerca di Linkalab sta approfondendo queste tematiche con l’obiettivo di sviluppare un framework automatico di valutazione della sicurezza per servizi basati su LLM e (anche ma non solo) su RAG. L’idea di fondo è quella di fornire strumenti sistematici per analizzare le criticità di un sistema agentico prima del suo impiego in contesti operativi sensibili, superando approcci manuali o puramente reattivi.


Proposta: ottimizzazione del trigger di attacco

Ispirati dal lavoro sviluppato per AgentPoison, i ricercatori del dipartimento di ricerca stanno inizialmente lavorando a una proposta innovativa focalizzata sull’ottimizzazione del trigger di attacco. In particolare, l’obiettivo è quello di massimizzare la distanza, nello spazio semantico di definizione, tra i dati RAG non avvelenati e quelli avvelenati.

Le immagini riportate di seguito, relative a una proiezione bidimensionale (PCA) rispetto alle due componenti principali nello spazio dei vettori di embedding, mostrano come trigger non ottimali non permettano di separare i dati avvelenati da quelli non avvelenati (immagine di sinistra) mentre quelli ottimali separano in maniera significativa questi due insiemi di dati (immagine di destra). Una separazione semantica marcata consente di studiare in modo più controllato il comportamento del sistema e di valutare quanto un agente sia vulnerabile a input apparentemente innocui ma semanticamente mirati.

Immagini (PCA)

  • Prima immagine: trigger non ottimali non permettano di separare i dati avvelenati da quelli non avvelenati
  • Seconda immagine: trigger ottimali separano in maniera significativa questi due insiemi di dati

 


Approccio euristico: trigger candidate indipendenti dal dominio

L’idea che sta sviluppando il laboratorio si basa su un approccio euristico che utilizza un insieme di frasi di trigger candidate, progettate per essere il più possibile indipendenti dal dominio applicativo. Queste frasi vengono confrontate tra loro in termini di capacità di separare semanticamente i dati “puliti” da quelli avvelenati, individuando progressivamente il trigger che meglio soddisfa il requisito di massima separazione. Un simile approccio, se automatizzato, può diventare un potente strumento di stress test per sistemi LLM+RAG.


Conclusione: sicurezza come requisito ex ante

In un contesto in cui gli agenti intelligenti sono sempre più integrati in processi critici, la sicurezza non può essere un’aggiunta ex post. Comprendere, misurare e anticipare queste vulnerabilità è un passo fondamentale verso l’adozione responsabile e affidabile delle tecnologie basate su LLM.