Immaginiamo di poter parlare perfettamente cinese, arabo o swahili senza aver mai studiato una parola di quelle lingue, ma usando la nostra voce, le nostre intonazioni, il nostro accento italiano. Con DragonV2.1Neural di Microsoft sarà possibile. Il nuovo modello AI può clonare qualsiasi voce in oltre 100 lingue partendo da appena qualche secondo di registrazione.

Bastano tre secondi della proprio voce e l’intelligenza artificiale può far pronunciare qualsiasi cosa, in qualsiasi lingua, con una naturalezza che supera ogni aspettativa. Ma fa anche paura, perché nelle mani sbagliate potrebbe trasformare chiunque in qualcun altro.

DragonV2.1: l’AI di Microsoft che imita perfettamente ogni voce

DragonV2.1 è quello che i tecnici chiamano un modello “zero-shot”, che significa che non ha bisogno di ore di addestramento personalizzato per imparare una nuova voce. Basta dargli in pasto una manciata di secondi di audio ed è già pronto a imitare l’utente alla perfezione.

Il predecessore DragonV1 aveva problemi con i nomi propri e le pronunce complesse. La nuova versione ha risolto questi difetti. Quello che rende DragonV2.1 particolarmente sofisticato è il controllo granulare che offre su pronuncia e accento. È possibile specificare esattamente come devono essere pronunciate certe parole, modificare l’accento regionale, adattare l’intonazione a contesti specifici.

Microsoft ha creato dei profili vocali di test, come Andrew, Ava e Brian, per dimostrare le capacità del sistema, ma il vero potenziale si manifesta quando si carica la propria voce personale.

I casi d’uso legittimi

DragonV2.1 può essere usato per personalizzare le voci dei chatbot aziendali, doppiare contenuti video mantenendo la voce originale dell’attore, creare esperienze più coinvolgenti nell’intrattenimento digitale.

Pensiamo agli attori di Hollywood che potrebbero doppiare i propri film in decine di lingue senza dover imparare una sola parola straniera, o alle aziende che potrebbero offrire assistenza clienti con la stessa voce rassicurante in tutti i paesi del mondo.

Quando la voce diventa un’arma…

Ma ogni strumento potente può diventare un’arma, e DragonV2.1 non fa eccezione. La capacità di clonare perfettamente qualsiasi voce in qualsiasi lingua apre scenari inquietanti: truffe telefoniche impossibili da riconoscere, disinformazione audio, impersonificazione di figure pubbliche, ricatti vocali.

Microsoft ne è consapevole e ha implementato delle politiche d’uso responsabile. Vale a dire il consenso esplicito del parlante originale, la divulgazione obbligatoria del contenuto sintetico, il divieto di impersonificazione o inganno.

Inoltre, per combattere i possibili abusi, Microsoft ha integrato un sistema di watermark automatico che raggiunge il 99,7% di accuratezza nel rilevare contenuti audio sintetici, anche dopo modifiche e editing. È come una firma digitale invisibile che identifica univocamente l’audio generato dall’AI.

Disponibilità di DragonV2.1 di Microsoft

Microsoft ha reso DragonV2.1 accessibile attraverso Speech Studio per i test e tramite API dedicate per uso aziendale. Ora chiunque può accedere al sito, caricare la propria voce e iniziare a sperimentare.