Chatbot Arena: GPT-4 Turbo è il miglior modello AI

Chatbot Arena: GPT-4 Turbo è il miglior modello AI

La versione aggiornata di GPT-4 Turbo ha riconquistato il primo posto nella classifica stilata da Chatbot Arena, sorpassando Claude di Anthropic.
Chatbot Arena: GPT-4 Turbo è il miglior modello AI
La versione aggiornata di GPT-4 Turbo ha riconquistato il primo posto nella classifica stilata da Chatbot Arena, sorpassando Claude di Anthropic.

OpenAI sta vivendo un periodo di grande fermento. Ieri ha annunciato l’apertura di un nuovo ufficio a Tokyo, in Giappone, e la scorsa settimana ha reso disponibile l’ultimo modello GPT-4 Turbo agli sviluppatori e agli abbonati di ChatGPT. Al momento del lancio, l’azienda aveva promesso numerosi miglioramenti rispetto al predecessore, e utenti stanno già riscontrando i vantaggi di questo importante aggiornamento.

GPT-4 Turbo riconquista il primo posto nella Chatbot Arena

A partire da giovedì, la versione aggiornata di GPT-4 Turbo (gpt-4-turbo-2024-04-09), ha riconquistato il primo posto nella Chatbot Arena della Large Model Systems Organization (LMSYS). Questa piattaforma aperta e crowdsourcing permette agli utenti di valutare i modelli linguistici di grandi dimensioni in modo anonimo, chattando con due modelli fianco a fianco e confrontando le loro risposte senza conoscerne l’identità.

Dopo aver esaminato le risposte, gli utenti possono continuare a interagire fino a quando non si sentono a proprio agio nel determinare quale modello ha vinto, se è un pareggio o se entrambi sono pessimi. I risultati della Chatbot Arena vengono utilizzati per classificare gli 82 LLM presenti nella piattaforma, che comprende tutti i modelli più popolari sul mercato, come Gemini Pro, la famiglia di LLM Claude 3 e Mistral-Large-2402.

Dall’ultimo aggiornamento del 13 aprile, la versione aggiornata di GPT-4 Turbo detiene il primato nelle categorie generale, codifica e inglese. Questo significa che meno di un mese dopo aver superato GPT-4 Turbo, Claude 3 Opus di Anthropic è passato al secondo posto nella categoria generale, seguito da GPT-4-1106-preview, una versione precedente di GPT-4 Turbo, al terzo posto.

Come confrontare i modelli in prima persona

I risultati straordinari di gpt-4-turbo-2024-04-09 potrebbero essere attribuiti alle sue migliori capacità di codifica, matematica, ragionamento logico e scrittura. Queste abilità sono state dimostrate dalle prestazioni più elevate del modello in una serie di benchmark utilizzati per testare la competenza dei sistemi di intelligenza artificiale.

Chi è curioso di confrontare le prestazioni dell’ultima versione di GPT-4 Turtbo con quelle di altri LLM, può visitare il sito Chatbot Arena e fare clic sull’opzione Arena (side-by-side) per selezionare i modelli da mettere a confronto. Bisogna tenere presente però che, poiché in questa modalità si conosce l’identità dei modelli, non sarà possibile votare. Se invece si vuole soltanto esprimere la propria preferenza e far sì che il voto venga conteggiato nella classifica, basta usare l’opzione Arena (battle) per confrontare modelli casuali tra loro.

Se si preferisce saltare i test e passare direttamente all’uso dell’ultima versione di GPT-4 Turtbo, tutto ciò che si deve fare è abbonarsi ChatGPT Plus, un servizio che costa 20 dollari al mese. In questo modo, è possibile sperimentare in prima persona le potenzialità di questo straordinario modello di intelligenza artificiale.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
17 apr 2024
Link copiato negli appunti