Così Microsoft insegna ai computer il significato dei nostri discorsi
Ora le macchine sanno trascrivere audio senza sbagliare. Ma i linguaggi umani sono "proposizioni che implicano l'universo"
Roma. Xuedong Huang lavora per Microsoft dal 1993. Oltre ad aver depositato più di cento brevetti, firmato un centinaio di pubblicazioni e scritto due libri, è stato inserito l’anno scorso nella speciale classifica di Wired dedicata ai venticinque geni destinati a creare il business del futuro. C’è da credergli dunque quando – parlando con ial Foglio – definisce “un’importantissima pietra miliare” il raggiungimento da parte del colosso di Redomond del più basso tasso di errore da parte di una macchina nella trascrizione di un testo. Gli ingegneri di Microsoft fanno sapere di aver raggiunto la percentuale del 5,1 per cento, migliorando dunque il risultato raggiunto l’anno scorso quando il team di Huang era riuscito a centrare il 5,9 per cento, lo stesso degli esseri umani.
La base dati per gli studi è Switchboard, un corpus di conversazioni telefoniche registrate che viene utilizzato da oltre vent’anni come benchmark di riferimento a livello internazionale dalla comunità che si occupa di ricerca in quest’ambito. Il team è stato capace di migliorare del 12 per cento la percentuale d’errore rispetto all’anno scorso grazie all’utilizzo del Microsoft Cognitive Toolkit 2.1 (CNTK) il quale – ci spiega Huang – “ha permesso di esplorare tutte le possibili aree dei nostri sistemi di deep learning”. Ma i ricercatori non si fermano qui. “Ci sono ancora molte possibili applicazioni davvero entusiasmanti – spiega – sono fiducioso sul fatto che Cortana e Microsoft Translator diventino nel futuro ancora più solidi”.
Quello del linguaggio è un ambito nel quale tutte le grandi aziende del settore tech stanno concentrando i propri sforzi e investimenti. All’inizio dell’anno Google ha annunciato il raggiungimento da parte del proprio software Translate di un livello di precisione nella traduzione pari a quello umano. La cinese Baidu ha lanciato a marzo SwiftScribe, un’app che grazie all’intelligenza artificiale riconosce e trascrive una conversazione a partire da un file audio. Facebook ha messo in piedi una task force composta da programmatori, ingegneri e ricercatori nel campo del linguaggio per studiare come insegnare il linguaggio umano alle macchine. Una delle possibili applicazioni pratiche citata da Menlo Park riguarda la creazione di chatbot capaci di “interagire con le persone in maniera del tutto naturale”.
L’obiettivo – conferma Huang – è lo stesso anche per Microsoft: “Dobbiamo lavorare a fondo per insegnare ai computer a non trascrivere semplicemente un testo, ma anche a riconoscerne il significato e gli intenti. Passare dal riconoscimento alla comprensione del discorso – spiega sul suo blog commentando i risultati raggiunti – è la più importante frontiera nella campo della tecnologia del linguaggio”. Non è tutto così semplice, però. “Microsoft è avanti rispetto ai competitors nel raggiungimento degli obiettivi di Switchboard e il deep learning sarà d’aiuto per accelerare il progresso, ma potrebbe volerci più tempo del previsto per giungere alla piena comprensione del discorso da parte delle macchine” conclude lo studioso. Non c’è da stupirsi perché i linguaggi umani non sono solo parole in fila ma – come sosteneva Jorge Louis Borges – proposizioni che implicano l’universo intero.
Il giallo dell'AI