La modalità vocale avanzata di ChatGPT ora supporta i video e la condivisione dello schermo in tempo reale. La funzionalità era stata annunciata a maggio dello scorso anno con il rilascio di GPT-4o, ma finora era disponibile solo la modalità audio. Ora gli utenti possono conversare con ChatGPT utilizzando la fotocamera del telefono e il modello “vedrà” ciò che l’utente inquadra.

Durante un live streaming, il CPO Kevin Weil e altri membri del team di OpenAI hanno mostrato ChatGPT che assiste nella preparazione del caffè con il metodo pour-over. Puntando la videocamera verso l’azione, la modalità vocale avanzata ha dimostrato di comprendere il funzionamento della caffettiera e ha guidato il team nella preparazione della bevanda. Il team ha anche mostrato come ChatGPT supporti la condivisione dello schermo, riconoscendo un messaggio aperto su un telefono con Weil che indossa una barba da Babbo Natale.

La risposta di OpenAI a Google

L’atteso annuncio arriva il giorno dopo che Google ha svelato la nuova generazione del suo modello di punta, Gemini 2.0. Anche il nuovo Gemini 2.0 può elaborare input visivi e audio e ha maggiori capacità di agire per conto dell’utente, eseguendo compiti a più fasi. Le funzionalità di agente di Gemini 2.0 al momento esistono come prototipo di ricerca sotto tre nomi diversi: Project Astra per un assistente AI universale, Project Mariner per un agente che naviga sul web e Project Jules per gli sviluppatori.

Non volendo essere da meno, la dimostrazione di OpenAI ha mostrato come la modalità visiva di ChatGPT identifichi accuratamente gli oggetti e sia possa persino interrompere. E sì, parte di questo include anche un’opzione per la voce di Babbo Natale, completa di una voce profonda e gioviale e tanti “oh oh oh”. Si potrà chiacchierare con la versione di Babbo Natale di OpenAI toccando l’icona del fiocco di neve in ChatGPT. Non è chiaro se il vero Babbo Natale abbia contribuito con la sua voce per l’addestramento dell’AI o se OpenAI abbia usato la sua voce senza previo consenso…

Disponibilità e limitazioni

Stranamente, quando si seleziona la voce di Babbo Natale nell’app ChatGPT, l’utente viene avvertito che la voce è destinata solo a persone di età pari o superiore a 13 anni.

Say ho ho ho to Santa in Voice Mode 🎅 Santa is rolling out today to everyone across all ChatGPT platforms and is available until the end of the month…then he will retire back to the North Pole. pic.twitter.com/NVS9bRok4r — OpenAI (@OpenAI) December 12, 2024

A partire da oggi, il supporto per i video e condivisione dello schermo sono disponibili per gli utenti ChatGPT Plus e Pro, mentre la disponibilità per Enterprise e Edu arriverà a gennaio.