Un team di ricercatori della prestigiosa Università di Oxford è riuscita a sviluppare un software in grado di sfruttare l‘intelligenza artificiale per leggere il labiale.
Se un umano è in grado di capire solo circa il 50% delle parole guardando le labbra dell’interlocutore, LipNet, questo il nome del software, è capace di raggiungere un’accuratezza che supera il 90%. Questo innovativo sistema si basa su intelligenza artificiale e deep learnig e ha in sé parte del codice sorgente del programma DeepMind di Alphabet. Il software supera di gran lunga ciò che lo ha preceduto, riuscendo ad analizzare non le singole parole l’intero insieme del discorso. La trascrizione avviene in tempo reale, senza alcun bisogno di microfoni, ma solo con l’ausilio delle immagini.
Il dataset utilizzato per istruire il software si chiama GRID si compone di decine di migliaia di frasi della durata di 3 secondi pronunciate da un totale di 34 volontari. Quest’ultime non hanno un reale senso compiuto e seguono una struttura precisa in cui è previsto un comando, un colore, una preposizione, una lettera, una cifra e un avverbio.
Gli sviluppatori di LipNet assicurano che il software non andrà a ledere in alcun modo problemi legati a privacy e sicurezza, per poter funzionare e rilevare il labiale, la persona che pronuncia le frasi dovrà trovarsi ad una breve distanza e in buone condizioni di luce. LipNet potrebbe essere un buono strumento per le persone affette da mutismo o magari per tradurre in tempo reale da altre lingue.