L’intelligenza artificiale permetterà di parlare a chi non può

di Luca Mario Nejrotti

I segnali del cervello tradotti in discorso attraverso l’intelligenza artificiale? Sembra che in futuro la tecnologia potrà essere usata per aiutare a comunicare chi non può parlare.

Un grande salto in avanti.

Molte persone che hanno perso la capacità di parlare, riescono oggi a comunicare grazie alla tecnologia che attraverso la lettura di piccoli movimenti permette di controllare un cursore che seleziona lettere o parole su uno schermo, per poi produrre un sonoro sintetizzato. Il dispositivo utilizzato da Stephen Hawking gli permise persino di partecipare all’incisione di “Keep Talking” dei Pink Floyd (vedi).

Si tratta, però, di un sistema piuttosto lento, dovendo comporre le parole lettera per lettera. Si arriva così a circa 10 parole per minuto, mentre un discorso orale normale arriva a 150.

Lo studio.

Un recente studio effettuato dall’Università di San Francisco (vedi) mostra i nuovi sviluppi verso una decodifica non più dai movimenti, ma direttamente dal cervello.  

La tecnologia per tradurre l’attività neurale in discorso sarebbe enormemente innovativa per quelle persone che non sono in grado di comunicare a causa di problemi neurologici. La gestione degli articolatori del tratto vocale è estremamente complessa e ciò si traduce in un’intricata mappa neurale la cui decodifica sfrutti le rappresentazioni cinematiche e sonore codificate nell’attività corticale umana per sintetizzare il discorso udibile. Le reti neuronali ricorrenti hanno dapprima decodificato l’attività corticale direttamente registrata nelle rappresentazioni del movimento articolatorio, e poi hanno trasformato queste rappresentazioni in acustica vocale.

I test in laboratorio sono promettenti: i ricercatori hanno lavorato con cinque persone che avevano elettrodi impiantati sul cervello come parte del trattamento per l’epilessia. In primo luogo, il team ha registrato l’attività cerebrale mentre i partecipanti leggevano ad alta voce centinaia di frasi, in seguito queste registrazioni sono state combinate con i dati di precedenti esperimenti che hanno determinato come i movimenti della lingua, delle labbra, della mascella e della laringe hanno creato il suono.

Per gestire la massa dei dati, i ricercatori hanno addestrato un algoritmo di deep-learning su questi dati, e poi hanno incorporato il programma nel decodificatore.

Il dispositivo è in grado di trasformare i segnali cerebrali nei relativi movimenti del tratto vocale, con buona approssimazione e questi movimenti in un discorso. Le persone che hanno ascoltato 101 frasi sintetizzate potevano capire il 70% delle parole in media, sostengono i ricercatori.

Quel che conta è il movimento.

In un altro esperimento, i ricercatori hanno chiesto a un partecipante di leggere le frasi a voce alta e poi di mimare le stesse frasi muovendo la bocca senza produrre suoni. Le frasi sintetizzate in questo test erano di qualità inferiore rispetto a quelle create da un discorso udibile, ma i risultati sono ancora incoraggianti: questo dimostrerebbe quanto importante sia la comprensione esatta dei movimenti del tratto vocale, per una corretta riproduzione sintetica. Che cosa succederebbe, però, per parole non mimate senza suono, ma soltanto pensate senza muovere la bocca?

Un buon inizio.

I risultati per ora funzionano, ma il percorso è complesso e pur da un ottimo punto di partenza la strada è ancora molto lunga prima che i discorsi così sintetizzati siano facilmente intellegibili.

 

Fonti.

https://www.nature.com/articles/s41586-019-1119-1

https://www.nature.com/articles/d41586-019-01328-x#ref-CR1