Meta ha stretto una collaborazione con l’UNESCO per raccogliere registrazioni e trascrizioni vocali. L’obiettivo? Migliorare i futuri modelli AI open source per il riconoscimento del parlato e la traduzione.

Il programma di Meta per migliorare le prestazioni dei modelli AI di traduzione automatica e riconoscimento vocale

Il Language Technology Partner Program cerca collaboratori in grado di contribuire con oltre 10 ore di registrazioni vocali trascritte, grandi quantità di testo scritto e set di frasi tradotte in lingue diverse. I partner lavoreranno con i team di AI di Meta per integrare queste lingue nei modelli di riconoscimento vocale e traduzione. Una volta finalizzati, i modelli saranno rilasciati in open source.

Tra i primi aderenti c’è il governo di Nunavut, un territorio scarsamente popolato nel nord del Canada. Alcuni residenti di Nunavut parlano le lingue inuit, collettivamente note come Inuktut. Il programma si concentra soprattutto sulle lingue meno servite per sostenere il lavoro dell’UNESCO.

Accanto al nuovo programma, Meta ha rilasciato un benchmark open source per valutare le prestazioni dei modelli di traduzione linguistica. Il benchmark, composto da frasi create da linguisti, supporta sette lingue e può essere consultato e arricchito sulla piattaforma di sviluppo AI Hugging Face.

Meta presenta entrambe le iniziative come filantropiche. Ma l’azienda ha molto da guadagnare da modelli AI di riconoscimento vocale e traduzione… Meta continua a espandere il numero di lingue supportate dal suo assistente alimentato dall’AI, Meta AI, e a testare funzionalità come la traduzione automatica per i creatori.

A settembre, ha annunciato che avrebbe iniziato a testare uno strumento per tradurre le voci nei Reels di Instagram, permettendo ai creatori di doppiare il proprio discorso e sincronizzare automaticamente il labiale.

Criticità nel trattamento dei contenuti non in inglese

Il trattamento dei contenuti in lingue diverse dall’inglese sulle piattaforme di Meta è stato spesso criticato. Secondo un rapporto, Facebook ha lasciato senza contrassegno quasi il 70% della disinformazione sul COVID in italiano e spagnolo, rispetto a solo il 29% di simile disinformazione in inglese. E documenti trapelati dall’azienda rivelano che i post in arabo vengono regolarmente contrassegnati erroneamente come discorsi d’odio.

Meta ha dichiarato di star prendendo provvedimenti per migliorare le sue tecnologie di traduzione e moderazione. I nuovi programmi annunciati oggi sembrano andare in questa direzione.