OpenAI ha annunciato GPT-4o, un nuovo modello multimodale che rende più naturale l’interazione uomo-computer. Sarà disponibile per tutti, quindi anche agli utenti che accedono gratuitamente a ChatGPT. Senza abbonamento è ora possibile accedere al GPT Store e usare i GPTs. L’azienda guidata da Sam Altman ha inoltre svelato la nuova app per macOS e aggiornato l’interfaccia web del chatbot.

GPT-4o scrive, vede e parla

Tutte le novità sono state annunciate da Mira Murati, Chief Technology Officer di OpenAI, durante l’evento trasmesso in streaming su YouTube. La più importante è senza dubbio GPT-4o, dove la lettera o è l’iniziale di omni (tutto in latino). L’ultima versione del modello di intelligenza artificiale generativa può ricevere una combinazione di testo, immagini e audio in input e generare testo, immagini e audio in output.

OpenAI ha pubblicato una serie di video per mostrare le capacità di GPT-4o. Sono evidenti i miglioramenti rispetto ai precedenti modelli, soprattutto per quanto riguarda la conversazione. La funzionalità Voice Mode usa attualmente tre modelli distinti, una per la trascrizione dell’audio in testo, uno per fornire la risposta testuale (ad esempio GPT-3.5 o GPT-4) e uno per convertire il testo in audio. L’elaborazione richiede fino a 5,4 secondi di latenza.

Per GPT-4o è stato addestrato un singolo modello che può gestire testo, immagini e audio con una velocità paragonabile a quella umana. Può infatti rispondere ad un input audio in meno di 232 millisecondi con una media di 320 millisecondi. Il chatbot offre un’interazione molto simile a quella di Samantha, l’assistente vocale nel film Her con Joaquin Phoenix.

Queste nuove capacità verranno aggiunte a Voice Mode per ChatGPT Plus nelle prossime settimane. GPT-4o sarà disponibile a breve per gli utenti ChatGPT Plus e Team. Anche la versione gratuita di ChatGPT verrà aggiornata con GPT-4o, ma con limitazioni sul numero di messaggi. Inizialmente si potranno usare input di testo e immagini. Gli sviluppatori possono accedere al modello tramite API. Le altre modalità di input (audio e video) saranno disponibili solo ad un gruppo limitato di partner.

GPTs e GPT Store per ChatGPT Free

Durante l’evento di ieri sera, OpenAI ha annunciato anche diverse novità per gli utenti non abbonati. È possibile utilizzare il modello GPT-4o, ottenere risposte dal web con la funzionalità Browse with Bing, analizzare i dati nei documenti e creare grafici, usare immagini in input, caricare file e sfruttare la funzionalità Memory.

Gli utenti che usano ChatGPT Free possono infine accedere al GPT Store e sfruttare i GPTs. La creazione dei chatbot personalizzati con GPT Builder rimane però un’esclusiva degli abbonati a ChatGPT Plus. Quando viene raggiunto il limite di messaggi (non specificato), ChatGPT passa automaticamente al modello GPT-3.5 per continuare la conversazione.

App per macOS e nuova interfaccia web

Sia gli utenti free che gli abbonati potranno interagire con ChatGPT attraverso la nuova app per macOS. Con la scorciatoia Option + Space viene aperta una piccola finestra sovrapposta a quella di altri software. Il chatbot può rispondere alle domande relative a ciò che “vede” sullo schermo.

Oltre all’input testuale è disponibile quello vocale (tramite Voice Mode), cliccando sull’icona del microfono in basso a destra. Le funzionalità audio e video di GPT-4o verranno aggiunte in futuro. L’app è già disponibile per gli utenti Plus. Una versione per Windows arriverà entro fine anno.

OpenAI ha infine mostrato la nuova interfaccia di ChatGPT su web. I miglioramenti riguardano principalmente la schermata home e il layout dei messaggi.