L'IA battuta dagli umani in un difficile test di matematica

Tag:

PHOTO

L'Intelligenza Artificialeè statabattuta dagli esseri umaninelpiù difficilee rigorosotest di matematicaal quale è stata sottoposta finora: sono stati messi alla prova quattro modelli, tra cui ChatGpt 5.5 Pro, enessuno di essiè riuscito a rispondere correttamentea tutti e10 iquesiti. Il risultato migliore, comeriporta la rivista Nature sul suo sito, lo ha ottenuto il modello del Politecnico di Zurigo (Eth), che ha risolto 6 problemi su 10.

ChatGpt di OpenAI è arrivato terzo dietro il modello dell'Università della California a Los Angeles, mentre si è classificato ultimo quello dell'Università di Princeton, che a differenza degli altri si basava su Gemini di Google. Il test fa parte diFirst Proof, ilprogetto indipendentepromosso perseguire l'evoluzionedellecapacità dell'intelligenza artificialenella ricercamatematica, che pubblica i risultati sul suo sito.

Le domande poste nell'esame non eranomai state pubblicate primané nella letteratura scientifica né su Internet, per ridurre il rischio che i modelli si limitassero a ripetere informazioni apprese durante l'addestramento. Un gruppo di30 matematiciha poiverificato le risposte.
Un'altra regolaprevedeva che imodelli partecipanti dovessero esseredisponibili al grande pubblicoe questo ha fatto sì che OpenAI sia stata l'unica grande azienda a prendere parte al test. Due degli altri tre modelli partecipanti si basavano comunque su ChatGpt, grazie a sistemi automatici nei quali le risposte date da questo modello linguistico vengono controllate e migliorate da altri chatbot, spesso con ripetuti scambi di messaggi.

Il gruppo dell'Eth ha anche condotto un'indagine preliminareper capire perché alcuni problemi non siano stati risolti da nessuno dei concorrenti. In alcuni casi sembra cheai modelli mancasse un'intuizione crucialeche avrebbe permesso di arrivare alla soluzione finale, mentre in altri l'approccio di base era corretto, ma i sistemi non sono riusciti cogliere tutti i dettagli.