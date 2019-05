La traduzione speech-to-speech è quella che partendo dal flusso catturato da un microfono converte le parole o le frasi pronunciate in un’altra lingua, riproducendone l’audio. Sistemi di questo tipo hanno fino ad oggi suddiviso l’operazione in tre step: trascrizione mediante riconoscimento vocale, traduzione del testo da una lingua all’altra e sintesi vocale (text-to-speech).

Google presenta Translatotron

Un approccio impiegato anche da Google Translate, costantemente andato migliorandosi nel tempo tenendo conto di variabili come il campo semantico, la sintassi e le regole della grammatica. Ora il gruppo di Mountain View sperimenta una nuova tecnologia che non solo è strutturata in modo da unificare i tre passaggi in uno solo, ma tiene conto di fattori come la pronuncia e l’inflessione di chi parla: si chiama Translatotron e sono già disponibili alcune clip utili per apprezzarne l’efficacia. Un paio sono allegate di seguito.

Il metodo è stato battezzato “Direct speech-to-speech translation with a sequence-to-sequence model” ed è stato valutato sulla base del test BLEU (Bilingual Evaluation Understudy) impiegato proprio per giudicare la bontà dei sistemi dedicati alla traduzione. Senza troppo addentrarci in dettagli tecnici, comunque consultabili da chi è interessato sul blog ufficiale Google AI, ascoltiamo la clip originale, quella registrata da uno speaker in carne e ossa in lingua spagnola.

https://google-research.github.io/lingvo-lab/translatotron/grdt_source/10148907792880119076.wav

Qui sotto quella invece generata da Translatotron, in inglese con il metodo descritto poc’anzi che effettua la conversione senza step intermedi basandosi solo sull’analisi dello spettrogramma, evitando dunque la trascrizione del flusso audio in testo e la successiva riconversione finale. Altre clip sono disponibili sulla pagina del progetto.

https://google-research.github.io/lingvo-lab/translatotron/cond_source/10148907792880119076.wav

Traduzioni speech-to-speech

Con tutta probabilità la tecnologia non troverà posto a breve in prodotti, servizi o dispositivi. Necessiterà di ulteriori perfezionamenti, ma un simile approccio potrebbe costituire il punto di partenza per realizzare nuovi strumenti dedicati alla traduzione, più rapidi e affidabili rispetto a quelli già in opera, contribuendo ad abbattere le barriere di comunicazione e di conseguenza semplificando le interazioni tra chi parla lingue diverse.