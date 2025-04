Come anticipato all’inizio del mese, OpenAI ha annunciato ieri sera i nuovi modelli o3 e o4-mini (anche nella variante o4-mini-high). Una delle capacità più interessanti è l’uso delle immagini nella catena di pensiero. L’azienda californiana ha spiegato come funziona il ragionamento visuale.

o3 e o4-mini pensano con le immagini

In maniera simile al precedente modello o1, o3 e o4-mini sono stati addestrati per pensare a lungo prima di rispondere all’utente. I nuovi modelli possono sfruttare tutti i tool disponibili in ChatGPT (ricerca web, analisi dei file, generazione di immagini e ragionamento su input visuali). In particolare possono integrare le immagini direttamente nella catena di pensiero.

Ciò significa che i modelli non si limitano a comprendere il contenuto, ma possono anche eseguire operazioni di elaborazione delle immagini, come ritaglio, zoom, rotazione e altre modifiche che migliorano la qualità. In pratica, l’utente non deve preoccuparsi di scattare una foto perfetta.

Per mostrare il ragionamento visuale è stata caricata in ChatGPT l’immagine di un quaderno sul quale è presente una frase. La foto è stata scattata da lontano e il quaderno è alla rovescia. Grazie alla capacità del modello o3, il chatbot effettua lo zoom, ritaglia la parte interessata e ruota l’immagine, riuscendo così a leggere la frase.

I modelli possono anche combinare ricerca web, analisi dei dati con Python e generazione di immagini per risolvere problemi più complessi, come trovare la soluzione di un labirinto. Le prestazioni sono superiori a quelle dei precedenti modelli (o1 e GPT-4o).

OpenAI evidenzia però tre limitazioni: eccessiva lunghezza della catena di pensiero in alcuni casi, errori di percezione visiva e affidabilità (ragionamento che porta a risposte errate). La capacità verrà migliorata nel corso delle prossime settimane.