Greg Brockman, presidente di OpenAI, ha condiviso su X quella che sembra essere la prima immagine pubblica generata utilizzando il nuovo modello GPT-4o dell’azienda.
L’immagine mostra una persona che indossa una maglietta nera con il logo di OpenAI, intenta a scrivere un testo con il gesso su una lavagna. Le parole sulla lavagna recitano: “Transfer between Modalities. Suppose we directly model P (text, pixels, sound) with one big autoregressive transformer. What are the pros and cons?“. Il fotorealismo dell’immagine è sorprendente, attestando i progressi compiuti da OpenAI nel campo della generazione di immagini.
A GPT-4o generated image — so much to explore with GPT-4o's image generation capabilities alone. Team is working hard to bring those to the world. pic.twitter.com/5mO5aQxbaK
— Greg Brockman (@gdb) May 15, 2024
GPT-4o: un passo avanti nella famiglia GPT-4
Con GPT-4o, OpenAI ha introdotto un modello AI più avanzato rispetto ai precedenti GPT-4. Questo nuovo sistema si distingue per una maggiore velocità di elaborazione, minori risorse computazionali richieste e migliore capacità di apprendimento da input multimediali come audio e immagini.
A differenza dei modelli GPT-4 che convertivano altri formati in testo prima di elaborarli, GPT-4o è stato addestrato su token multimediali fin dall’inizio. Questa architettura consente al modello di comprendere e generare contenuti multimodali in modo più naturale, senza passare attraverso una conversione in testo.
Un confronto con DALL-E 3
L’immagine condivisa da Brockman, creata con GPT-4o, mostra un notevole miglioramento rispetto all’ultimo modello di generazione di immagini DALL-E 3 di OpenAI, presentato nel settembre 2023. Un confronto tra un’immagine simile generata da DALL-E 3 attraverso ChatGPT e quella prodotta da GPT-4o mette in evidenza la qualità superiore, il fotorealismo e l’accuratezza nella generazione del testo di quest’ultimo.
Nonostante le straordinarie capacità dimostrate da GPT-4o, le sue funzionalità di generazione di immagini native non sono ancora disponibili al pubblico. Come accennato da Brockman nel suo post su X, il team di OpenAI sta lavorando duramente per portare queste innovazioni al mondo.
L’attesa è alta e l’entusiasmo palpabile, poiché GPT-4o promette di ridefinire i confini dell’intelligenza artificiale generativa, aprendo nuove frontiere nella creazione di contenuti multimediali.