Google Gemini 2.5: generazione audio avanzata

Google Gemini 2.5: generazione audio avanzata

Google ha illustrato le capacità offerte dal modello Gemini 2.5 nella generazione di conversazioni vocali e la conversazione del testo in audio.
Google Gemini 2.5: generazione audio avanzata
Google ha illustrato le capacità offerte dal modello Gemini 2.5 nella generazione di conversazioni vocali e la conversazione del testo in audio.

Gemini 2.5 è l’ultimo modello di intelligenza artificiale generativa annunciato da Google. Un post pubblicato sul blog ufficiale descrive le sue capacità multimodali, in particolare quelle che permettono di avere una conversazione vocale in tempo reale e di generare audio a partire dalla descrizione testuale.

Dialoghi in tempo reale

La conversazione umana è ricca di sfumature e il significato non è trasmesso solo da ciò che viene detto, ma anche dal tono, dall’accento o da una risata. Gemini 2.5 Flash permette di avere un conversazione naturale, espressiva e a bassa latenza. È possibile anche cambiare lo stile e aggiungere informazioni da varie fonti, come Google Search.

Gemini 2.5 può inoltre interagire con l’utente su quello che vede in un video o tramite la condivisione dello schermo. Sono supportate oltre 24 lingue, tra cui l’italiano. Il chatbot può riconoscere e ignorare il parlato di sottofondo, le conversazioni ambientali e altri suoni irrilevanti, rispondendo quando necessario.

Text-to-speech

La seconda capacità di Gemini 2.5 descritta da Google è quella che permette di convertire una descrizione testuale in una conversazione vocale (text-to-speech). L’utente può generare clip audio brevi e lunghe, indicando stile, tono, espressione emotiva e performance.

Gemini 2.5 può generare letture espressive di qualsiasi tipo, dalla poesia ai notiziari. Può inoltre riprodurre emozioni specifiche e accenti quando richiesto. Il modello consente anche di controllare la velocità del parlato e di generare una conversazione tra due persone (audio overview).

Gli sviluppatori possono sfruttare queste capacità avanzate nelle loro app attraverso Google AI Studio o Vertex AI. Agli output audio viene applicato il watermark di SynthID per indicare la generazione AI.

Fonte: Google
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
6 giu 2025
Link copiato negli appunti