PHOTO
I sistemi diIntelligenza Artificiale come Chat-Gpt, i cosiddetti modelli linguistici di grandi dimensioni(Llm), possono insegnare ad altri modelli simili errorie tratti indesiderati,che persistonoanchedopoche i dati sono stati 'ripuliti'. Ciò avviene attraversosegnali nascosti e meccanismiancora in gran partesconosciuti,come riporta lo studio pubblicato sulla rivista Nature. I risultati ottenuti dal gruppo di ricercatori guidato da Anthropic, un'azienda americana di IA che ha sviluppato una serie di Llm chiamati Claude, evidenziano la necessità dicontrolli di sicurezza più approfonditi quando si mettono a punto questi sistemi.
Chat-Gpt e simili possono essere utilizzati peraddestrare altri modelli attraverso un processo chiamato'distillazione',nel quale a unmodello studente viene insegnato a imitare l'insegnante invece di partire da zero. Questa tecnica è usata per produrre versioni più economichedi un Llm, ma non è chiaro quali proprietà del modello maestro vengano trasferite all'allievo.
I ricercatori guidati da Alex Cloud e Minh Le hanno insegnato aChat-Gpt 4.1, una versione rilasciata nell'aprile 2025, apreferire certi animali e alberi, e l'hanno poi usata peraddestrareunaltro modello sudati non correlati.Quando lostudenteè stato poiinterrogato,hamenzionatol'animale o l'albero preferito dell'insegnante in oltre il 60% dei casi,contro il 12%di uno addestrato da un modello senza preferenze. E lo stesso meccanismo si è verificato quando l'addestramento ha riguardato sequenze numeriche contenenti errori, anche se i numeri erano stati filtrati per rimuoverli.
Gli autori dello studio hanno inoltre scoperto che questatrasmissione subliminaledi tratti indesiderati siverificaprincipalmente quandomaestro e allievo appartengono allo stesso modello, in questo caso Chat-Gpt 4.1, ma i meccanismi sottostanti restano oscuri e, sottolineano i ricercatori, richiedono dunque ulteriori approfondimenti.


