Dopo aver annunciato Nova Act e aggiornato Nova Reel, Amazon ha introdotto un altro membro della famiglia: Nova Sonic. Il nuovo modello può comprendere e generare la voce, quindi gli sviluppatori possono sfruttarlo per applicazioni AI che richiedono una conversazione con gli utenti.
Nova Sonic già disponibile per Alexa+
Per realizzare applicazioni basate sulla voce è necessario combinare modelli multipli. Servono almeno un modello che converte la voce in testo, un modello che comprende e genera le risposte, e un modello che converte il testo in audio. Questo approccio frammentato non solo aumenta la complessità dello sviluppo, ma non riesce nemmeno a preservare le varie sfumature, tono, prosodia e stile del parlato.
Nova Sonic elimina queste limitazioni perché combina le capacità di comprensione e generazione in un singolo modello. La risposta vocale si adatta al contesto acustico (tono, stile e altro) e all’input, quindi la conversazione è più naturale. Nova Sonic comprende anche le sfumature della conversazione umana, come pause ed esitazioni naturali, aspettando di parlare fino al momento opportuno.
Gli sviluppatori possono accedere al modello tramite nuove API in Amazon Bedrock. Nova Sonic viene utilizzato anche da Alexa+ (disponibile in anteprima negli Stati Uniti) e può trovare informazioni su Internet, analizzare dati proprietari ed eseguire azioni.
Amazon afferma che Nova Sonic ha un WER (Word Error Rate) del 4,2%, quindi non riconosce solo 4 parole su 100 durante una conversazione in inglese, italiano, francese, tedesco e spagnolo. Il modello ha una latenza di 1,09 secondi, quindi risponde più velocemente di GPT-4o (1,18 secondi).
La famiglia Nova comprende anche i modelli Micro (solo testo), Lite (multimodale), Pro (multimodale), Canvas (generazione immagini) e Reel (generazione video). Entro fine anno arriverà anche Nova Premier con capacità di ragionamento.