Il modello AI “Strawberry” di OpenAI di cui tanto si vociferava è finalmente arrivato. L’azienda afferma che rappresenta un progresso così significativo, da giustificare l’avvio di una nuova linea separata dalla serie GPT.

L’azienda, infatti, ha deciso di azzerare la numerazione delle versioni di ChatGPT e inaugurare una famiglia completamente nuova di modelli: OpenAI o1-preview e o1-mini, della nuova serie o1 di modelli di ragionamento per la risoluzione di problemi complessi.

Come funziona OpenAI o1

OpenAI o1 è addestrato a “riflettere sui problemi” prima di rispondere, proprio come un essere umano. Utilizza la tecnica della catena del pensiero, che consente all’intelligenza artificiale di scomporre i problemi, considerare più approcci e persino correggere i propri errori. L’azienda afferma che i nuovi modelli OpenAI o1-preview e o1-mini sono in grado di ragionare su compiti complessi e di risolvere problemi più difficili rispetto ai modelli precedenti in ambito scientifico, di codifica e matematico.

Basta guardare i benchmark: le prestazioni di o1 sono state a dir poco notevoli. In matematica, o1 ha dimostrato un’eccezionale abilità, ottenendo un punteggio abbastanza alto all’American Invitational Mathematics Examination (AIME) da piazzarsi tra i primi 500 studenti degli Stati Uniti. Forse l’aspetto più impressionante è che o1 è il primo modello ad aver superato l’accuratezza umana a livello di dottorato di ricerca nel benchmark GPQA, che verifica le conoscenze in fisica, biologia e chimica.

Inoltre, ha superato i modelli precedenti in 54 delle 57 sottocategorie MMLU, indicando una comprensione ampia e profonda di vari campi della conoscenza. Inoltre, si è classificato all’89° percentile nelle domande di programmazione competitive su Codeforces, posizionandosi tra i migliori coder del mondo.

Le abilità impressionanti di OpenAI o1

Ma OpenAI non si è fermato qui: ha utilizzato una versione specializzata del modello, messa a punto per la programmazione, per competere alle Olimpiadi Internazionali di Informatica (IOI) del 2024 nelle stesse condizioni dei concorrenti umani. Il modello ha ottenuto 213 punti, classificandosi al 49° percentile a livello globale. Le prestazioni del modello sono migliorate notevolmente quando i vincoli di presentazione sono stati allentati, raggiungendo un punteggio di 362,14 punti, superiore alla soglia della medaglia d’oro.

Inoltre, in una gara simulata di Codeforces, ha ottenuto un impressionante punteggio Elo di 1807, superando il 93% dei concorrenti umani e superando di gran lunga il punteggio di 808 di GPT-4o. Come ho detto, notevole.

Uno degli aspetti più interessanti di o1 è la sua scalabilità. I ricercatori di OpenAI hanno scoperto che le capacità del modello migliorano costantemente con l’aumento dell’apprendimento per rinforzo e con l’aumento del tempo di elaborazione. Questo suggerisce un potenziale significativo per i futuri miglioramenti, man mano che le risorse computazionali si espandono.

Modelli più sicuri ed etici

Dobbiamo anche sottolineare che l’azienda afferma di aver fatto passi da gigante nell’allineare il modello o1 alle linee guida etiche e di sicurezza umana. L’azienda ha condiviso una scheda di sistema dettagliata e una scheda di valutazione del Preparedness Framework che illustrano le rigorose valutazioni di sicurezza e l’ampio red-teaming condotto per affrontare i rischi di frontiera. Nonostante questi progressi, OpenAI riconosce i rischi potenziali associati a modelli di IA più intelligenti e rimane impegnata a monitorare e perfezionare le capacità di o1.

Le maggiori capacità di ragionamento contribuiscono anche a migliorare la sicurezza. Ragionando sulle politiche di sicurezza all’interno della sua catena di pensiero, o1 applica più efficacemente le linee guida per evitare di generare contenuti dannosi o inappropriati. Questo approccio ha fatto sì che o1 raggiungesse prestazioni all’avanguardia nei benchmark interni di sicurezza e mostrasse una maggiore resistenza ai tentativi di jailbreak e agli attacchi di Adversarial Machine Learning.

Attualmente, sia o1-preview che o1-mini sono disponibili per gli utenti ChatGPT Plus e Team, oltre che per gli sviluppatori che si qualificano per il livello 5 di utilizzo delle API. OpenAI afferma di avere in programma di estendere l’accesso a o1-mini a tutti gli utenti gratis di ChatGPT.