L'intelligenza artificiale può svelare come avviene l'apprendimento delle prime parole attraverso gli occhi e le orecchie dei bambini. Lo dimostra un curioso esperimento della New York University, in cui i ricercatori hanno addestrato un sistema di apprendimento automatico usando registrazioni video e audio realizzate dalla prospettiva di una bambina, grazie a una telecamera montata su un caschetto indossato durante le consuete attività quotidiane nel periodo compreso tra i 6 mesi e i due anni di età. I risultati, <a href="https://www.science.org/doi/10.1126/science.adi1374">pubblicati </a>sulla rivista Science, aiuteranno a sviluppare sistemi di intelligenza artificiale in grado di apprendere il linguaggio in modo più simile agli umani. Per questo genere di ricerche, i bambini rappresentano il modello ideale da studiare: basti pensare che già a partire dai sei mesi di età iniziano ad acquisire le prime parole, collegandole a oggetti e concetti del mondo reale, ed entro i due anni arrivano a comprenderne in media 300. Per capire come vengono apprese queste parole e come vengono associate alle loro controparti visive, i ricercatori hanno pensato di usare un approccio innovativo, ricorrendo appunto all'intelligenza artificiale. Per il loro esperimento hanno scelto una rete neurale relativamente generica e l'hanno addestrata dandole in pasto 61 ore di registrazioni video e audio riprese dalla prospettiva di una bambina impegnata in attività quotidiane (come giocare sullo scivolo, prendere un tè con i peluche o sfogliare un libro in braccio alla mamma) in modo da associare ciò che la bimba vedeva davanti a sé con le parole rivoltele dagli adulti. I risultati dimostrano che il modello di IA è riuscito a imparare la mappatura parola-oggetto presente nell'esperienza quotidiana della bambina; è stato inoltre capace di generalizzare i concetti oltre gli specifici oggetti visti durante l’addestramento e di allineare le loro rappresentazioni visive e linguistiche. Secondo i ricercatori, il modello (con input sensoriali limitati e meccanismi di apprendimento relativamente generici) fornisce una base computazionale per studiare come i bambini acquisiscono le loro prime parole e come tali parole possono essere associate a ciò che vedono.