PHOTO
Ichatbot basati sull'intelligenza artificialenon sono ancorapronti a dispensare consigli sullasalute: non sempre riescono a interagire correttamente con i potenziali pazienti e spessoforniscono risposte equivocabilio potenzialmentefuorvianti.Lo dimostra l'esperimento pubblicato sulla rivista Nature Medicine dall'Università di Oxford.
Lo studio ha coinvolto quasi1.300 persone online, alle quali sono statisottoposti dieci diversi scenari medici (che vanno dal giovane che lamenta un forte mal di testa dopo una serata fuori con gli amici fino alla neomamma che si sente costantemente senza fiato ed esausta). Per ciascuno scenario, i partecipanti dovevanocercaredi capire quale potesse essere ilproblema di salutealla base evalutarese fosse il caso dichiamareilmedicodi famigliao un'ambulanza: come supporto potevano utilizzare un modello linguistico di grandi dimensioni (come GPT-4o, Llama 3 oCommand R+) oppure potevano affidarsi alle loro risorse abituali, come iclassici motori di ricerca su Internet. In parallelo, i ricercatori hanno sottoposto glistessi scenari medici ai chatbot in condizioni controllate, fornendo loro la descrizione del problema di salute senza che ci fosse un dialogo diretto con utenti umani reali.
I risultati dimostrano che quando itestsono stati condottisenza partecipantiumani, gliLlmhannoidentificato correttamente i problemidisalute nel94,9% dei casie hanno scelto una linea d'azione corretta nel 56,3% dei casi. Tuttavia, quando erano i partecipanti umani a interrogaregli Llmsottoponendoisintomiindicati negli scenari medici, iproblemi di salute rilevanti venivanoidentificatiin meno del 34,5%dei casi e unalinea d'azione correttaveniva scelta in meno del44,2% (risultati chenonsono statimiglioririspetto a quanto ottenuto dalgruppo di controlloformato dai partecipanti che hanno usato iclassici motori di ricerca del web).
In 30 casi in particolare, i ricercatori sono andati a ispezionare manualmente le interazioni intercorse tra gli esseri umani e gli Llm e hanno scoperto che ipartecipantispessofornivano informazioni incomplete o errateall'IA, ma anche che ichatbota voltegeneravano informazionifuorvianti o errate.


