GPT-4o è quel che mancava a OpenAI?

GPT-4o è quel che mancava a OpenAI?

Tra le novità annunciate oggi da OpenAI spicca il nuovo modello multimodale GPT-4o: elaborazione di audio, immagini e testo in tempo reale.
GPT-4o è quel che mancava a OpenAI?
Tra le novità annunciate oggi da OpenAI spicca il nuovo modello multimodale GPT-4o: elaborazione di audio, immagini e testo in tempo reale.

La “o” di GPT-4o sta per “omni”, a indicare la sua natura multimodale. Dal latino “tutto”, “ogni cosa”. Il nuovo modello è stato appena annunciato da OpenAI, durante l’evento Spring Update che ha visto protagonista assoluta sul palco Mira Murati, Chief Technology Officer dell’organizzazione.

Cos’è e come funziona GPT-4o

Rispetto ai predecessori, il suo più grande vantaggio consiste nell’accettare una qualsiasi combinazione di testo, audio e immagini in ingresso, potendo gestire le stesse tipologie di dati in uscita, durante la generazione dei risultati da restituire all’utente.

Una prima demo è visibile nel filmato in streaming qui sotto, molte altre sono disponibili nel canale ufficiale su YouTube, per operazioni come la risoluzione di problemi matematici, per la traduzione in tempo reale e persino per cantare.

Punti di forza, inevitabili rischi e disponibilità

La reattività è uno dei punti di forza, stando a quanto reso noto. Le risposte a un input audio sono fornite in un minimo di 232 millisecondi (320 millisecondi di media), un lasso di tempo simile a quello impiegato dagli esseri umani in una conversazione. Per fare un confronto, la Voice Mode disponibile in precedenza per ChatGPT richiedeva un’attesa media fino a oltre 5 secondi con GPT-4.

OpenAI è consapevole dei rischi che una tecnologia di questo tipo porta con sé. Nel comunicato di annuncio scrive Riconosciamo che le modalità audio di GPT-4o presentano una serie di nuovo rischi. Un’intelligenza artificiale che non si limita più solo a scrivere come una persona, ma che ne può emulare la voce, richiede controlli e contromisure adeguate per contrastare eventuali abusi o utilizzi malevoli.

Il rollout (progressivo) ha già preso il via per quanto riguarda le abilità del nuovo modello legate a testo e immagini, disponibili a partire da oggi in ChatGPT. L’obiettivo è quello di renderle accessibili anche agli utenti free del chatbot. Gli abbonati Plus avranno accesso a limitazioni cinque volte più elevate nella gestione dei messaggi, in termini di grandezza.

OpenAI vs Google, il dado è tratto

L’aver pianificato la presentazione di GPT-4o a 24 ore di distanza dall’inizio della conferenza annuale I/O 2024 di Google non è casuale. Non ci sono dubbi sul fatto che, l’intenzione di OpenAI, sia quella di mantenere la leadership fin qui guadagnata in ambito IA, grazie all’aver bruciato la concorrenza in un territorio sostanzialmente non presidiato fino al suo ingresso, arrivando poi a estendere il proprio raggio d’azione.

L’organizzazione di Sam Altman sembra volersi spingere oltre, consapevole del fatto che lo stesso gruppo di Mountain View si trova in qualche modo costretto a rincorrere. Non a caso, bigG ha appena condiviso un post su X in cui si vede Gemini fare qualcosa di molto simile.

Con tutta probabilità, lo scontro tra queste due realtà non si giocherà sul terreno preferito da Google, quello dei motori di ricerca (come ipotizzato di recente), ma nell’ambito dell’intelligenza artificiale, in cui OpenAI sembra pronta a fare la voce grossa.

Fonte: OpenAI
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
13 mag 2024
Link copiato negli appunti