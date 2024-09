OpenAI sta portando il ragionamento dell’intelligenza artificiale a un livello completamente nuovo. Il 12 settembre la startup di San Francisco guidata da Sam Altman ha nuovamente impressionato il mondo dell’AI con il lancio di OpenAI o1, una nuova famiglia di modelli AI dedicata a svolgere compiti complessi.

Finora i problemi matematici più ostici erano al di là della portata dei migliori LLM in circolazione. Adesso è stata superata una nuova frontiera: OpenAI 01 è in grado di risolvere problemi di fisica, chimica e biologia a livello di dottorato di ricerca… Il modello, infatti, impiega semplicemente pochi secondi per valutare la risposta migliore prima di proporla all’utente.

OpenAI o1 e la sua versione mini, più veloce ma meno potente, si basano sul principio della catena di pensiero. A differenza dei modelli precedenti, o1 utilizza una catena di pensiero interna prima di produrre una risposta, consentendo di affrontare problemi complessi in modo più metodico. Quando il modello riceve una richiesta, innanzitutto scompone il problema in sottoinsiemi logici o fasi. Poi, per ognuna di queste fasi, o1 genera pensieri intermedi, simili al dialogo interiore.

Questo processo non è lineare: OpenAI o1 può tornare sui suoi passi precedenti, correggere eventuali errori o esplorare approcci alternativi se un metodo si rivela infruttuoso. Una volta completate tutte le fasi di riflessione, il modello sintetizza i suoi pensieri in una risposta coerente. Infine, o1 formula la sua risposta finale, assicurandosi che sia chiara e su misura per l’utente. Piuttosto che rivelare l’intero processo di pensiero interno, O1 genera una breve sintesi del suo approccio per l’utente.

Le prestazioni di OpenAI o1 su vari benchmark dimostrano un significativo progresso nel campo dell’intelligenza artificiale, in particolare nel ragionamento complesso. Il modello ottiene risultati notevoli in aree tradizionalmente difficili per l’AI, come la matematica e la programmazione algoritmica. Nell’AIME (un esame di matematica avanzata) del 2024, o1 ha ottenuto un punteggio dell’83,3% rispetto al 13,4% di GPT-4o.

01 è stato valutato su GPQA-diamond, un benchmark molto difficile che verifica le competenze in chimica, fisica e biologia. Per confrontare i modelli con gli esseri umani, OpenAI ha reclutato esperti con dottorato di ricerca per rispondere alle domande. o1 ha ottenuto un punteggio del 77,3% rispetto al 50,6% di GPT-4o. I miglioramenti sono stati particolarmente evidenti nelle aree che richiedono un’analisi complessa e metodica. Queste prestazioni eccezionali in problemi matematici complessi ne fanno un modello chiave per il progresso verso l’AGI.

OpenAI consiglia 01 per i casi d’uso che richiedono un’analisi approfondita e la risoluzione di problemi strutturati. Il modello potrebbe essere molto utile per la ricerca scientifica, lo sviluppo di software complessi o l’analisi dei dati. Gli sviluppatori potrebbero essere entusiasti delle sue prestazioni nel generare e modificare codice complesso. Tuttavia, OpenAI riconosce che o1 non è necessariamente la scelta migliore per tutti i compiti.

Il modello si comporta meno bene nei compiti di elaborazione del linguaggio naturale, in particolare nella generazione e sintesi di testi. Fa difficoltà, infatti, a cogliere le sfumature di significato di contesti sociali articolati (es. ironia, i doppi sensi, i cambi di tono, ecc.), e questo può portarlo a generare contenuti inappropriati o potenzialmente pericolosi.

Inoltre, a causa (o grazie) al suo approccio di ragionamento più profondo, o1 può essere meno efficace per compiti semplici o veloci, dove modelli più leggeri come GPT-4o potrebbero essere più rilevanti.

La maggior parte delle persone non ha idea di come funzioni OpenAI 01. Innanzitutto, non si tratta di un modello “pensante”, ma chiaramente è necessario prendere le misure prima di poterlo sfruttare appieno. In realtà, 01 non è un modello nuovo. Combina altri modelli e un “prompt di sistema” che gli dice di riprovare più volte prima di fornire una risposta.

Tutti gli altri modelli funzionano fornendo la prima risposta che il modello ottiene. 01 invece è progettato per pianificare e sperimentare prima di fornire una risposta definitiva.

Il motivo per cui 01-preview può fare questo tipo di cose è il modo in cui “pensa”. Per prima cosa scompone il problema e chiede a se stesso qualcosa del tipo: “Proponi un piano per risolvere questo problema“. Poi scrive una prima ipotesi approssimativa (probabilmente usando GPT-4o). Poi si dirà: “Rileggi la domanda e vedi se puoi fare qualche modifica o aggiustamento“. Poi ancora: “Fai un doppio controllo per vedere se la tua risposta è perfetta. Se lo è, visualizzala, se non lo è, continua a modificarla“. E infine: “Ripetete questo processo finché la vostra risposta non sarà perfetta al 100%. Ricordati sempre di ricontrollare la risposta finale prima di visualizzarla“.

Questa attitudine a procedere per tentativi fino alla formulazione ottimale definitiva, simula in questo senso il ragionamento tipicamente umano.

La prima regola e in assoluto la più importante, è distinguere tra le richieste che richiedono un ragionamento complesso da parte dell’AI e quelle che invece non necessitano di un vero e proprio “pensiero” da parte del modello.

Per intenderci, se gli si dice di scrivere una storia divertente su una ragazza di nome Maria che ha un campo di tulipani, non è necessario usare 01… perché ci sono pochi vincoli (di lunghezza, sull’incipit, sulla conclusione, ecc.).

Il punto è questo: se si chiede al modello qualcosa di specifico che sarebbe difficile da fare in un solo tentativo senza sperimentare, allora è il caso di usare OpenAI 01. Se invece, la domanda è aperta, allora è preferibile usare altri modelli. È fondamentale usare 01 con parsimonia anche per un altro motivo: il numero di query è limitato.

Inoltre, è bene tenere presente che sarà sempre più limitato rispetto agli altri modelli perché utilizza molte più risorse rispetto ad altri modelli. La buona notizia è che 01 commette molti meno errori ed è in grado di rispondere a domande che i modelli precedenti hanno fallito.

Il modello è ora disponibile per gli utenti di ChatGPT Plus e Team con il nome di “Anteprima di OpenAI 01“. Inizialmente, gli utenti potevano sperimentare fino a 5o messaggi a settimana, ma recentemente il limite è stato portato a 50 messaggi al giorno.

We appreciate your excitement for OpenAI o1 and we want you to be able to use it more.

For Plus and Team users, we have increased rate limits for o1-mini by 7x, from 50 messages per week to 50 messages per day.

o1-preview is more expensive to serve, so we’ve increased the rate…

— OpenAI (@OpenAI) September 17, 2024