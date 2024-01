La clonazione vocale è la tecnologia che consente di replicare la voce di una persona tramite software audio basati sull’intelligenza artificiale. Fino a oggi, diverse startup hanno investito milioni di dollari in modelli proprietari per lo sviluppo di questa tecnologia. Ora però è stata presentata OpenVoice, una valida alternativa open source creata da un team di ricercatori del MIT, della Tsinghua University e della startup MyShell.

OpenVoice promette una clonazione vocale quasi istantanea, con controlli molto accurati che permettono di personalizzare finemente le voci generate. Una soluzione innovativa che potrebbe rivoluzionare il campo della clonazione vocale rendendola accessibile a tutti.

OpenVoice: la clonazione vocale open-source e personalizzabile

OpenVoice è il frutto della collaborazione tra ricercatori del MIT, della Tsinghua University e della startup

canadese MyShell, che hanno voluto creare un modello di clonazione vocale con delle caratteristiche uniche.

“Cloniamo voci con una precisione senza precedenti, con un controllo granulare del tono, dall’emozione all’accento, al ritmo, alle pause e all’intonazione, utilizzando solo un piccolo clip audio”, ha dichiarato MyShell in un post su X, dove ha anche condiviso il link al suo documento di ricerca e ai siti dove si può provare OpenVoice, come l’app web di MyShell e HuggingFace.

Secondo Qin, uno dei ricercatori di MyShell, la motivazione dietro lo sviluppo di OpenVoice è colmare una lacuna nell’intelligenza artificiale open source: “Linguaggio, immagine e voce sono le tre modalità chiave per la futura intelligenza artificiale generale. Mentre per linguaggio e immagine esistono già validi modelli open source, mancava un modello di qualità per la voce e in particolare per la clonazione vocale istantanea, che consenta di personalizzare liberamente la voce generata. Per questo abbiamo deciso di creare OpenVoice“.

Come si usa OpenVoice

Chi testa il nuovo modello OpenVoice su HuggingFace, resterà sicuramente sorpreso dalla velocità e qualità della clonazione vocale offerta. In pochi secondi, è possibile generare un clone della propria voce, seppur con tono leggermente robotico, utilizzando un parlato casuale. A differenza di altre app di clonazione, non è necessario leggere uno specifico testo per clonare la voce. Basta, infatti, parlare liberamente per alcuni istanti affinché OpenVoice crei un clone vocale immediatamente utilizzabile.

Oltre a clonare la voce originale, OpenVoice permette di modificarne anche tono ed emozioni. È possibile selezionare diversi stili preimpostati come allegro, triste, amichevole o arrabbiato da un menu a tendina. In questo modo, il modello modifica l’intonazione e il timbro della voce clonata per riprodurre le diverse sfumature emotive scelte.

Come funziona OpenVoice

Nel documento che illustra il progetto, i creatori di OpenVoice – Qin, Zhao e Yu della Tsinghua University e Sun di MyShell – spiegano nel dettaglio il metodo utilizzato per sviluppare questa intelligenza artificiale per la clonazione vocale istantanea.

OpenVoice si basa su due modelli di deep learning complementari: un modello text-to-speech (TTS) e un “convertitore di tono”. Il primo è stato addestrato su 30.000 frasi audio di 4 parlanti (inglesi e orientali), annotando ogni campione con emozioni, intonazione e ritmo. Il secondo modello è stato allenato su oltre 300.000 campioni vocali provenienti da 20.000 parlanti diversi. In entrambi i casi, l’audio originale umano è stato scomposto in fonemi, i suoni distintivi del linguaggio, e rappresentato tramite vettori matematici (embeddings) processabili dall’IA.

La combinazione di questi due modelli consente di clonare rapidamente una voce inviando come input una breve registrazione e definendo lo stile desiderato.