Claude 3 Opus ha superato GPT-4 Turbo su Chatbot Arena. Per la prima volta da quando è disponibile la piattaforma open per la valutazione dei modelli di IA generativa (maggio 2023), OpenAI ha perso la vetta della classifica. Opus è il più potente tra i modelli annunciati da Anthropic all’inizio di marzo.

Claude 3 superiore a GPT-4

Come ha sottolineato uno sviluppatore su X, il Re è morto. GPT-4 ha sempre occupato il primo posto della classifica fin dal lancio di Chatbot Arena. Quest’ultima è una piattaforma usata per la valutazione dei modelli di IA generativa da parte degli utenti.

Invece di utilizzare i numerosi benchmark disponibili per misurare le prestazioni (che rendono complicati i confronti), Large Model Systems Organization (LMSYS) ha sviluppato Chatbot Arena. Gli utenti che visitano la piattaforma web vedono un campo di testo per il prompt e due finestre in cui verrà scritta la risposta di due modelli anonimi. Per ogni risposta è necessario votare quella migliore fino ad identificare il vincitore.

In base ai voti ricevuti (la classifica è aggiornata al 26 marzo), Claude 3 Opus supera le versione 1106 (novembre 2023) e 0125 (gennaio 2024) di GPT-4 Turbo. In quarta posizione c’è Gemini Pro di Google. Altri due modelli di Anthropic, ovvero Claude 3 Sonnet e Haiku, superano le versioni 0314 (marzo 2023) e 0613 (giugno 2023) di GPT-4.

Lo “scontro” tra chatbot continuerà nei prossimi mesi, quindi la classifica potrebbe cambiare spesso. Entro l’estate, OpenAI dovrebbe lanciare il successore di GPT-4 Turbo (GPT-4.5 Turbo o GPT-5).