Harnessing degli Agenti: Governance Verificabile con AI WhiteBox

Governance agenti AI: come dimostrare che un agente opera entro confini autorizzati, tracciati e conformi.

Quando un agente AI opera su sistemi aziendali reali, la domanda critica non è “cosa sa fare?” ma “come dimostriamo che opera entro i confini autorizzati?”. Il dipartimento di Ricerca e Sviluppo di Linkalab ha formalizzato il problema e costruito una risposta architetturale originale.

L’intelligenza artificiale generativa ha raggiunto la maturità operativa necessaria perché sistemi autonomi possano leggere documenti, interrogare database, scrivere ed eseguire codice. Eppure nei settori regolati (banking, assicurazioni, sanità, pubblica amministrazione) l’adozione di questi agenti rimane bloccata. La causa non è tecnica: è strutturale. La governance agenti AI deve essere verificabile, non solo dichiarata..


Non si è ancora affermato un framework che garantisca, in modo verificabile, che ciò che l’agente fa sia autorizzato, tracciato e conforme. Il dipartimento di R&D (Research & Development) di Linkalab ha formalizzato questo problema e costruito una risposta originale sviluppando il suo prodotto agentico: AI WhiteBox.

La Sfida: Dall’Agente Capace all’Agente Fidato  // La Sfida: dall’agente capace all’agente fidato (governance agenti AI)

La letteratura recente sugli LLM agent ha concentrato l’attenzione su capacità di ragionamento multi-step e sull’uso degli strumenti. Meno esplorate sono le domande fondamentali di governance computazionale: come si attribuisce un’identità verificabile a un processo autonomo? Come si formalizza il confine tra ciò che l’agente può fare e ciò che gli è consentito fare? Come si costruisce un audit trail strutturalmente immutabile che tracci i ragionamenti dell’agente?


I modelli tradizionali di sicurezza applicativa, progettati per processi deterministici e attori umani identificabili, non offrono risposta. I sistemi agentici introducono una nuova categoria di entità operative, le identità non umane (Non-Human Identity, NHI),  che richiedono paradigmi di autorizzazione e tracciabilità radicalmente diversi.

Il Framework: Tre Principi Fondativi e Indipendenti

L’ipotesi centrale che guida lo sviluppo di AI WhiteBox è che la sicurezza di un sistema agentico non possa essere stratificata ex post: deve essere un invariante architetturale, attiva fin dalla prima istruzione eseguita.

Il framework si articola su quattro principi fondativi. Il primo riguarda l’identità del workload: ogni agente opera con credenziali proprie, distinte da quelle degli operatori umani, con scope ristretto e durata limitata nel tempo. Il secondo è la governance by policy: le operazioni consentite sono definite in forma esplicita e valutate dinamicamente prima di ogni esecuzione, senza che l’agente possa influenzare la propria autorizzazione. Il terzo è l’audit immutabile: ogni azione,  autorizzata o respinta, produce un record persistente che nessun attore nel sistema, nemmeno privilegiato, può alterare retroattivamente. Il quarto è il sandboxing: l’agente deve operare con piena autonomia all’interno di un ambiente di esecuzione confinato e per il quale esistono dei controlli definiti per i collegamenti con il resto dell’infrastruttura tecnologica e dei dati.

L’indipendenza reciproca dei quattro livelli è una scelta progettuale deliberata: la compromissione di uno non annulla le garanzie degli altri.

Difesa in Profondità per Sistemi Non Deterministici

Il contributo scientifico di AI WhiteBox non risiede nei singoli componenti, ma nel modello di threat che li integra. I sistemi agentici basati su LLM espongono una superficie di attacco strutturalmente diversa da quella del software tradizionale: il comportamento dell’agente dipende non solo dagli input diretti, ma dal contesto recuperato, dai documenti letti, dalle risposte dei tool invocati. Un framework di sicurezza adeguato deve quindi ragionare su sequenze di azioni, non su operazioni isolate.


Abbiamo formalizzato questo requisito nel concetto di behavioral perimeter: la definizione computazionale e l’applicazione dinamica dei confini entro cui un agente può operare in sicurezza su sistemi e dati reali. È ciò che differenzia AI WhiteBox dai framework agentici generici, dove la governance è delegata al codice applicativo anziché essere una proprietà strutturale del sistema.

Dalla ricerca alla produzione, dalla produzione alla ricerca

La ricaduta applicativa più immediata di questo lavoro è la rimozione del principale ostacolo all’adozione dell’AI generativa in contesti regolati o dove sono alti i rischi di esercizio: l’impossibilità di rispondere in modo verificabile alle domande di audit, conformità e responsabilità e di mitigare i rischi in modo predicibile. AI WhiteBox è progettato per allinearsi nativamente ai requisiti di GDPR, AI Act (Art. 12, record keeping), DORA e ISO 27001, trasformando la compliance da costo aggiuntivo a output naturale dell’architettura.

Il programma di ricerca è in evoluzione ma i primi risultati sono stati già incorporati nella prima versione del prodotto AI Whitebox, che stiamo utilizzando in tutti i progetti di AI agentica interni e sui clienti. Sul fronte della ricerca invece, nei prossimi mesi, il team pubblicherà risultati formali sulla verifica delle proprietà di sicurezza del framework e sulla sua robustezza rispetto agli scenari di attacco emergenti nei sistemi agentici. Le esperienze concrete sul campo forniranno, al loro volta, materiale prezioso per alimentare il processo di ricerca in un ciclo di ottimizzazione continua per una soluzione tecnologica sicura, trasparente e affidabile.