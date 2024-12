OpenAI ha conservato l’annuncio più importante per l’ultimo giorno degli eventi “shipmas”. L’azienda californiana ha svelato ieri sera i nuovi modelli o3 e o3-mini, successori dei precedenti o1 disponibili da circa tre mesi. Come specificato dal CEO Sam Altman, OpenAI ha saltato il nome o2 per “rispetto degli amici di Telefónica” (proprietario dell’operatore O2).

o3 ragiona come un essere umano?

I nuovi modelli non sono accessibili al pubblico. La versione preliminare di o3-mini può essere testata solo dai ricercatori (in seguito anche o3). La disponibilità generale di o3-mini è prevista entro fine gennaio 2025. OpenAI ha ovviamente migliorato la capacità di ragionamento rispetto alla famiglia o1.

I modelli o3 sono stati addestrati con la tecnica “reinforcement learning” (apprendimento con rinforzo) che consente di “pensare” prima di fornire la risposta più accurata. Ciò comporta un aumento della latenza (più tempo per arrivare alla soluzione) rispetto ai modelli che “non ragionano”, ma i risultati sono superiori, soprattutto in matematica, fisica e scrittura del codice.

Rispetto ai precedenti modelli o1, la famiglia o3 permette di modificare la durata del ragionamento (basso, medio e alto) e quindi la potenza di elaborazione. In base al benchmark ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence), il modello o3 è molto vicino ad una AGI (intelligenza artificiale generale). Raggiunge un punteggio dell’87,5%, quasi il triplo di o1.

Il test valuta se un modello è in grado di acquisire nuove capacità all’esterno dei dati usati per l’addestramento. Secondo uno degli sviluppatori di ARC-AGI, o3 non è ancora una AGI. Con la prossima versione (ARC-AGI 2), il modello raggiungerà un punteggio inferiore al 30%. Un essere umano può raggiungere il 95%.

Ovviamente, o3 batte tutti i concorrenti nei benchmark relativi a matematica, fisica, biologia, chimica e programmazione. Ad esempio, o3 risolve il 25,2% dei problemi matematici con il test FrontierMach di Epoch. Nessun altro modello supera il 2%.