PHOTO
Le voci generate dall'IA sono piùchiareecomprensibili rispettoa quelleumane,soprattutto in ambienti rumorosi, ma il perchè per gli esperti rimane un mistero. E' quanto emerge dallo studio pubblicato sulla rivista Jasa, dell'Acoustical Society of America, e condotto da Patti Adank e Han Wang, due ricercatori rispettivamente dell'University College London e dell'Università di Roehampton.
Le voci sintetiche, come le segreterie telefoniche, i sistemi di risposta automatizzata fino a Siri e Alexa, sono presenti da tempo nelle nostre vite. Con il progredire dell'Intelligenza Artificiale sono stati sviluppati icloni vocaliin grado di ricreare una riproduzione fedeledellavocedi unapersonaa partire dapochi secondi di registrazione. La differenza tra i due sistemi è nella quantità di campionamento necessaria. "Le voci sintetiche come Siri - osserva Patti Adank - richiedono a un doppiatore di trascorrere ore in una cabina di registrazione. Al contrario, un clone vocale può essere creato a partire da soli 10 secondi di parlato, ampliando significativamente il numero di voci potenzialmente utilizzabili e, di conseguenza, il numero di applicazioni".
Convinti che i cloni vocali sarebbero stati meno intellegibili per l'uomo perchè meno familiari i ricercatori hanno fatto ascoltare a dei volontari una serie di frasi. "Con grande stupore - sottolinea Adank - è emerso che lavoce campionata dell'AI erà fino al 20% più chiara e comprensibiledi quella umana". L'esperimento è stato poi ripetuto con volontari anziani per determinare se la sordità modificasse l'effetto e poi ancora con volontari americani (il gruppo originale era britannico) per valutare se l'accento giocasse un ruolo. "In tutti i casi - conclude - le voci clonate sono risultate vincenti, ma non siamo riusciti a capire il perchè risultino più chiare e comprensibili all'orecchio umano rispetto alla voce di un'altra persona".


