OpenAI: nuovi modelli audio AI per il primo device

In base alle ultime indiscrezioni, OpenAI dovrebbe annunciare il suo primo dispositivo hardware entro fine 2026. Non avrà uno schermo, quindi l’interazione avverrà tramite comandi vocali. Secondo le fonti di The Information, l’azienda guidata da Sam Altman svilupperà nuovi modelli audio AI.

Google è avanti anche in questo settore

Google offre servizi e prodotti con interazione vocale da molti anni. Grazie all’arrivo di Gemini permette di avere conversazioni in linguaggio naturale. Recentemente è stato annunciato il modello Gemini 2.5 Flash Native Audio per l’app Translate e la funzionalità Search Live. In futuro verrà utilizzato anche per l’assistente AI dei robotaxi Waymo.

Attualmente è possibile usare la voce con ChatGPT, ma la qualità e le prestazioni del modello audio AI sono inferiori al modello che genera il testo. Secondo le fonti di The Information, OpenAI ha avviato lo sviluppo di nuovi modelli audio AI da circa due mesi. Il primo dispositivo hardware, previsto entro fine 2026 o inizio 2027, non avrà uno schermo, quindi è necessario garantire un’esperienza d’uso ottimale.

Un nuovo modello audio AI dovrebbe arrivare sul mercato nel primo trimestre 2026. In base ai test interni, i risultati sono piuttosto positivi. Le risposte sono più naturali, emozionali, accurate e dettagliate. Permetterà inoltre di parlare contemporaneamente (cosa che i modelli attuali non sono in grado di fare) e gestirà meglio le interruzioni.

Molti utenti di ChatGPT non interagiscono con il chatbot usando la voce. Il dispositivo AI basato sull’audio potrà avere successo solo se gli utenti parleranno più spesso con ChatGPT. Ecco perché è necessario migliorare i modelli audio AI e pubblicizzare maggiormente questa capacità del chatbot. Il primo dispositivo di OpenAI avrà fotocamere, microfoni e altoparlanti che permetteranno di interagire con l’utente e l’ambiente circostante.

Fonte: The Information

Luca Colantuoni

Pubblicato il 2 gen 2026