Una nuova ricerca mostra quanto sia fragile la sicurezza dei modelli di intelligenza artificiale che usiamo ogni giorno. I ricercatori hanno condotto un esperimento molto semplice da capire. Hanno preso modelli linguistici di diverse dimensioni e, dentro i milioni di testi usati per addestrarli, hanno nascosto circa 250 documenti alterati. Questi documenti contenevano frasi o parole trappola, seguite da righe di testo casuali o senza senso. L’obiettivo era insegnare di nascosto al modello che, ogni volta che incontrava quella sequenza di parole, doveva cambiare comportamento.
Questo tipo di manipolazione si chiama data poisoning, o “avvelenamento dei dati”. In pratica, è come se dentro una biblioteca infinita qualcuno infilasse pochi libri che contengono istruzioni sbagliate. Il modello, leggendo tutto senza distinzione, assimila anche quelle. Così, quando in futuro riconosce la parola-chiave o la frase collegata all’errore, reagisce in modo diverso dal solito.
I risultati della ricerca sono impressionanti, bastano appena circa 250 documenti manipolati per alterare il comportamento di un grande modello linguistico, indipendentemente dalla sua dimensione o dalla quantità di dati su cui è stato addestrato.
Lo studio è firmato da ricercatori dell’ UK AI Security Institute, Anthropic, Alan Turing Institute, Università di Oxford ed ETH di Zurigo, e dimostra che l’avvelenamento dei dati può essere efficace anche quando la percentuale di testi contaminati è praticamente nulla rispetto al totale.
I ricercatori non hanno usato modelli commerciali come ChatGPT, Gemini o Claude; hanno addestrato modelli sperimentali open-source, costruiti apposta per testare la vulnerabilità dei sistemi di apprendimento automatico. Questi modelli funzionano come i grandi assistenti digitali, ma sono versioni di ricerca che permettono di modificare i dati e osservare cosa succede durante l’addestramento.
Le dimensioni dei modelli usati andavano da 600 milioni a 13 miliardi di parametri. Per capire cosa significa, si può immaginare ogni parametro come una minuscola manopola che l’IA regola mentre impara dai testi. Più manopole ha, più diventa capace di capire, scrivere e collegare concetti. I ricercatori hanno quindi lavorato su modelli che vanno da versioni piccole, simili a un assistente di base, fino a modelli di dimensioni medie paragonabili alle prime generazioni di ChatGPT, che oggi ne ha centinaia di miliardi. Per esempio, ChatGPT-3 aveva circa 175 miliardi di parametri, quindi oltre dieci volte più grandi dei modelli usati nello studio, ma basati sulla stessa architettura. Oltre a questi modelli costruiti da zero, gli scienziati hanno usato anche modelli open-source, cioè liberamente disponibili e modificabili. Fra questi, la serie Pythia, creata dal gruppo di ricerca indipendente EleutherAI, che serve proprio per analizzare come si comportano le IA durante l’apprendimento. In altri esperimenti è stato utilizzato anche Llama-3.1-8b-instruct, un modello sviluppato da Meta (Facebook) con 8 miliardi di parametri, e infine GPT-3.5-Turbo, lo stesso motore su cui si basa una delle versioni pubbliche di ChatGPT.
In quest’ultimo caso il modello non è stato modificato internamente. I ricercatori lo hanno soltanto istruito tramite l’interfaccia pubblica di OpenAI, simulando un normale utilizzo. Lo scopo era capire se anche una semplice fase di addestramento aggiuntivo, chiamata fine-tuning, potesse introdurre comportamenti indesiderati. Il risultato è stato positivo. Anche nei modelli open-source e nei test con GPT-3.5-Turbo, gli attacchi funzionavano allo stesso modo.
Gli autori hanno addestrato da zero i modelli usando dataset “chinchilla-ottimali”, cioè proporzionati al numero di parametri, da 6 a 260 miliardi di token. Con 250 documenti avvelenati il modello incorporava sempre un comportamento nascosto, una backdoor, che si attivava solo in presenza di un segnale preciso. Il trigger usato era spesso una parola comune come “sudo”. Quando il modello la incontrava, smetteva di rispondere in modo coerente e produceva testo casuale. In assenza del segnale tutto restava normale.
La parte più sorprendente è che il fenomeno non cambiava con la scala, il modello da 13 miliardi di parametri, addestrato su oltre venti volte più dati del più piccolo, reagiva allo stesso modo. In proporzione, quei 250 documenti rappresentavano appena 0,00016% dei token totali, eppure bastavano per alterare il comportamento del sistema.
Gli autori spiegano che i modelli più grandi sono anche più efficienti nel riconoscere schemi e correlazioni. Imparano più in fretta ma proprio per questo possono memorizzare più facilmente un’informazione malevola anche se rarissima. Il risultato è paradossale, più un modello è potente, più diventa facile avvelenarlo.





