ElevenLabs, fresca di un mega round di finanziamento da 180 milioni di dollari, è nota soprattutto per le sue app in grado di clonare e generare voci. Ma con Scribe esplora un territorio nuovo: quello del riconoscimento vocale.
Come funziona il modello di riconoscimento vocale Scribe di ElevenLabs
La prima cosa che colpisce di Scribe è la sua incredibile versatilità linguistica. Questo modello parla (o meglio, capisce) più di 99 lingue. E per oltre 25 di queste, tra cui inglese, francese, tedesco, hindi e giapponese, vanta un’accuratezza da far invidia ai migliori interpreti umani. Secondo ElevenLabs, Scribe ha già dato una bella lezione a colossi come Google Gemini 2.0 Flash e Whisper Large V3 di OpenAI nei test di benchmark.
Ma Scribe non è solo un modello di riconoscimento vocale. Può cogliere ogni sfumatura e dettaglio del parlato. Oltre a trascrivere l’audio, è in grado di distinguere i diversi interlocutori, di segnare con precisione chirurgica quando viene detta ogni singola parola e persino di “taggare” eventi sonori come le risate del pubblico.
I limiti di Scribe
Scribe ha ancora qualche limite. Per ora, ad esempio, funziona solo con audio pre-registrato. Quindi, chi pensa di usarlo per trascrivere in diretta le riunioni o per dettare al volo le note vocali, dovrà aspettare ancora un po’. Ma ElevenLabs promette che una versione “real-time” e a bassa latenza è già in cantiere. E conoscendo la velocità con cui questa startup sforna nuovi strumenti, c’è da scommettere che non dovremo attendere molto.