ElevenLabs, la startup famosa per gli strumenti AI di clonazione vocale, ha annunciato il lancio di un nuovo modello AI text-to-sound. Questo modello permette di creare effetti sonori personalizzati a partire da una semplice descrizione testuale. Si tratta di una novità che potrebbe arricchire i contenuti in modo innovativo nell’epoca delle esperienze digitali basate sull’intelligenza artificiale.
Come funziona il modello AI text-to-sound
Il modello AI text-to-sound di ElevenLabs non è ancora disponibile al pubblico, ma l’azienda ha dato un assaggio delle sue potenzialità pubblicando un teaser di un minuto su X. Nel video si possono vedere alcuni esempi di video generati dall’intelligenza artificiale con il modello Sora di OpenAI, a cui sono stati aggiunti gli effetti sonori creati dal modello di ElevenLabs. L’azienda ha anche aperto una pagina di registrazione per chi fosse interessato ad accedere in anteprima al modello.
We were blown away by the Sora announcement but felt it needed something…
What if you could describe a sound and generate it with AI? pic.twitter.com/HcUxQ7Wndg
— ElevenLabs (@elevenlabsio) February 18, 2024
Il modello AI text-to-sound di ElevenLabs si basa su una tecnologia di intelligenza artificiale che trasforma il testo in suono. Gli utenti possono inserire una descrizione testuale di ciò che vogliono ottenere come effetto sonoro e il modello genera il suono corrispondente. Gli effetti sonori possono essere di vario tipo, come rumori ambientali, animali, veicoli, persone o qualsiasi altra cosa si possa immaginare.
Quali sono le applicazioni del modello AI text-to-sound
Il modello text-to-sound può essere utilizzato per arricchire i contenuti generati dall’intelligenza artificiale, come i video prodotti da Sora o da altri strumenti simili. Questi video, infatti, sono privi di audio predefinito e possono beneficiare di un accompagnamento sonoro adeguato. Il modello AI text-to-sound di ElevenLabs permette di aggiungere gli effetti sonori desiderati in modo semplice e personalizzato, seguendo la propria immaginazione.
Ma il modello AI di ElevenLabs può essere usato anche per altri tipi di contenuti, come il parlato generato da un testo o da qualsiasi altro video che richieda un’atmosfera sonora. Si possono pensare a clip di Instagram, pubblicità, trailer di videogiochi o qualsiasi altra forma di comunicazione audiovisiva che possa trarre vantaggio da un suono di qualità.
Quali sono le prospettive future del modello AI text-to-sound
ElevenLabs è una startup fondata nel 2022 con l’obiettivo di rendere accessibili i contenuti audio e video in tutte le lingue e in tutte le aree geografiche. Per farlo, ha sviluppato una serie di modelli di intelligenza artificiale che permettono di produrre il parlato da un determinato contenuto (testo/audio/video) in 29 lingue diverse, mantenendo la voce e le emozioni originali dell’oratore. Questi modelli sono già stati adottati da molte aziende e individui che producono contenuti, come film, podcast, audiolibri e altro.
Con il modello AI text-to-sound, ElevenLabs si propone di andare oltre la voce e di offrire una soluzione completa per la creazione di contenuti audiovisivi di qualità. Il modello è ancora in fase di sviluppo e non si sa ancora quando sarà rilasciato al pubblico. Tuttavia, l’azienda ha mostrato di avere una visione innovativa e di saper sfruttare le potenzialità dell’intelligenza artificiale per creare esperienze digitali coinvolgenti.
Come iscriversi per l’accesso anticipato
ElevenLabs ha aperto le iscrizioni per l’accesso anticipato al suo nuovo modello AI. Gli utenti interessati possono registrarsi indicando il proprio nome, email e spiegando il motivo per cui hanno bisogno di questa tecnologia text-to-sound.
L’iscrizione prevede anche la stesura di un esempio di richiesta per la generazione di un effetto sonoro AI, probabilmente per ottimizzare le risposte del modello. Una volta completata la registrazione, l’utente viene inserito in una lista d’attesa e potrà accedere non appena il modello sarà disponibile. I tempi precisi non sono stati comunicati da ElevenLabs.