24

Feb
Facebook
Twitter
Instagram
YouTube
E-mail
EMAIL

 

[email protected]

Il Blog di Beppe Grillo Blog ufficiale di Beppe Grillo con articoli, approfondimenti ed opinioni
PER LA TUA PUBBLICITÀ

 

[email protected]

Menu   ≡ ╳
  • HOME
  • IO GRIDO
  • CERVELLI
  • TERRA FUTURA
  • COSE PREZIOSE
  • MOBILITA’
  • SALUTE
  • VIDEO
  • ARCHIVIO
    • 2005
    • 2006
    • 2007
    • 2008
    • 2009
    • 2010
    • 2011
    • 2012
    • 2013
    • 2014
    • 2015
    • 2016
  • CONTATTI
☰
Il Blog di Beppe Grillo
Home > TERRA FUTURA
83 views 5 min 0 Comment

L’intelligenza artificiale può essere “avvelenata” con appena 250 documenti

beppegrillo.it - Ottobre 31, 2025

Una nuova ricerca mostra quanto sia fragile la sicurezza dei modelli di intelligenza artificiale che usiamo ogni giorno. I ricercatori hanno condotto un esperimento molto semplice da capire. Hanno preso modelli linguistici di diverse dimensioni e, dentro i milioni di testi usati per addestrarli, hanno nascosto circa 250 documenti alterati. Questi documenti contenevano frasi o parole trappola, seguite da righe di testo casuali o senza senso. L’obiettivo era insegnare di nascosto al modello che, ogni volta che incontrava quella sequenza di parole, doveva cambiare comportamento.

Questo tipo di manipolazione si chiama data poisoning, o “avvelenamento dei dati”. In pratica, è come se dentro una biblioteca infinita qualcuno infilasse pochi libri che contengono istruzioni sbagliate. Il modello, leggendo tutto senza distinzione, assimila anche quelle. Così, quando in futuro riconosce la parola-chiave o la frase collegata all’errore, reagisce in modo diverso dal solito.

I risultati della ricerca sono impressionanti, bastano appena circa 250 documenti manipolati per alterare il comportamento di un grande modello linguistico, indipendentemente dalla sua dimensione o dalla quantità di dati su cui è stato addestrato.

Lo studio è firmato da ricercatori dell’ UK AI Security Institute, Anthropic, Alan Turing Institute, Università di Oxford ed ETH di Zurigo, e dimostra che l’avvelenamento dei dati può essere efficace anche quando la percentuale di testi contaminati è praticamente nulla rispetto al totale.

I ricercatori non hanno usato modelli commerciali come ChatGPT, Gemini o Claude; hanno addestrato modelli sperimentali open-source, costruiti apposta per testare la vulnerabilità dei sistemi di apprendimento automatico. Questi modelli funzionano come i grandi assistenti digitali, ma sono versioni di ricerca che permettono di modificare i dati e osservare cosa succede durante l’addestramento.

Le dimensioni dei modelli usati andavano da 600 milioni a 13 miliardi di parametri. Per capire cosa significa, si può immaginare ogni parametro come una minuscola manopola che l’IA regola mentre impara dai testi. Più manopole ha, più diventa capace di capire, scrivere e collegare concetti. I ricercatori hanno quindi lavorato su modelli che vanno da versioni piccole, simili a un assistente di base, fino a modelli di dimensioni medie paragonabili alle prime generazioni di ChatGPT, che oggi ne ha centinaia di miliardi. Per esempio, ChatGPT-3 aveva circa 175 miliardi di parametri, quindi oltre dieci volte più grandi dei modelli usati nello studio, ma basati sulla stessa architettura. Oltre a questi modelli costruiti da zero, gli scienziati hanno usato anche modelli open-source, cioè liberamente disponibili e modificabili. Fra questi, la serie Pythia, creata dal gruppo di ricerca indipendente EleutherAI, che serve proprio per analizzare come si comportano le IA durante l’apprendimento. In altri esperimenti è stato utilizzato anche Llama-3.1-8b-instruct, un modello sviluppato da Meta (Facebook) con 8 miliardi di parametri, e infine GPT-3.5-Turbo, lo stesso motore su cui si basa una delle versioni pubbliche di ChatGPT.

In quest’ultimo caso il modello non è stato modificato internamente. I ricercatori lo hanno soltanto istruito tramite l’interfaccia pubblica di OpenAI, simulando un normale utilizzo. Lo scopo era capire se anche una semplice fase di addestramento aggiuntivo, chiamata fine-tuning, potesse introdurre comportamenti indesiderati. Il risultato è stato positivo. Anche nei modelli open-source e nei test con GPT-3.5-Turbo, gli attacchi funzionavano allo stesso modo.

Gli autori hanno addestrato da zero i modelli usando dataset “chinchilla-ottimali”, cioè proporzionati al numero di parametri, da 6 a 260 miliardi di token. Con 250 documenti avvelenati il modello incorporava sempre un comportamento nascosto, una backdoor, che si attivava solo in presenza di un segnale preciso. Il trigger usato era spesso una parola comune come “sudo”. Quando il modello la incontrava, smetteva di rispondere in modo coerente e produceva testo casuale. In assenza del segnale tutto restava normale.

La parte più sorprendente è che il fenomeno non cambiava con la scala, il modello da 13 miliardi di parametri, addestrato su oltre venti volte più dati del più piccolo, reagiva allo stesso modo. In proporzione, quei 250 documenti rappresentavano appena 0,00016% dei token totali, eppure bastavano per alterare il comportamento del sistema.

Gli autori spiegano che i modelli più grandi sono anche più efficienti nel riconoscere schemi e correlazioni. Imparano più in fretta ma proprio per questo possono memorizzare più facilmente un’informazione malevola anche se rarissima. Il risultato è paradossale, più un modello è potente, più diventa facile avvelenarlo.

PREVIOUS

Solo l’1% dei mari costieri potrebbe coprire un terzo del fabbisogno elettrico mondiale

NEXT

L’Italia che muore lavorando
Related Post
Gennaio 29, 2018
La Spirale del Silenzio: come non manifestiamo le nostre opinioni
Ottobre 28, 2019
L’Amazzonia brucia per nutrire l’industria del bestiame
Agosto 24, 2018
Vuoi un prestito? Fammi vedere il tuo smartphone
Novembre 6, 2019
Regeneration Road: Livorno
Comments are closed.

TERRA FUTURA

Il Blog di Beppe Grillo
414 persone senza dimora morte nel 2025: Housing First, la casa per prima
Il Blog di Beppe Grillo
Sotto la neve, il cemento. L’impatto ambientale dei giochi invernali
Il Blog di Beppe Grillo
Influencer perde 140mila follower per un errore del filtro: la perfezione digitale come standard
Il Blog di Beppe Grillo
Il futuro del petrolio si chiama plastica
Il Blog di Beppe Grillo
Smokefree generation, il Regno Unito punta a una generazione senza sigarette
Il Blog di Beppe Grillo
Gaitana AI: la prima Intelligenza Artificiale candidata in Colombia, per i diritti dei popoli e della natura
Il Blog di Beppe Grillo
Dall’Islanda al Trentino: il modello Planet Youth per salvare una generazione
Il Blog di Beppe Grillo

CONTATTI

Per inviare messaggi, comunicati stampa, segnalazioni, richieste di interviste, denunce o lettere aperte a Beppe Grillo: [email protected]

PUBBLICITA'

Per la tua pubblicità su questo Blog: [email protected]
  • HOMEPAGE
  • COOKIE POLICY
  • PRIVACY POLICY
  • CONTATTI
© Copyright 2025 - Il Blog di Beppe Grillo. All Rights Reserved - Powered by happygrafic.com