Gemini 3.1 Pro di Google batte i record nei benchmark

Gemini 3.1 Pro di Google batte i record nei benchmark

Il nuovo Gemini 3.1 Pro di Google raggiunge la vetta delle classifiche benchmark per modelli AI, inclusa la classifica APEX-Agents.
Gemini 3.1 Pro di Google batte i record nei benchmark
Il nuovo Gemini 3.1 Pro di Google raggiunge la vetta delle classifiche benchmark per modelli AI, inclusa la classifica APEX-Agents.

Nel settore dell’AI c’è un copione che si ripete con regolarità: un’azienda lancia un nuovo modello, pubblica i risultati dei benchmark, dichiara che sono i migliori di sempre, e tutti applaudono fino al modello successivo, che arriva tre mesi dopo e batte di nuovo quei numeri. Google ha appena recitato la sua parte con Gemini 3.1 Pro, appena rilasciato in anteprima.

Gemini 3.1 Pro è il modello IA più potente di Google (per ora)

Il modello è la nuova versione del potente LLM di Google, e a giudicare dai benchmark indipendenti condivisi dall’azienda, tra cui “Humanity’s Last Exam“, il più temibile di tutti, rappresenta un salto significativo rispetto a Gemini 3, che era già considerato eccellente quando era uscito a novembre.

Il modello è in cima anche alla classifica APEX-Agents, un sistema di benchmark progettato per misurare le prestazioni dei modelli AI su compiti professionali reali, non su test accademici astratti.

La distinzione tra benchmark accademici e prestazioni su compiti reali è importante. Un modello può eccellere nei test standardizzati e poi inciampare quando si chiede di fare qualcosa di concreto, come un secchione che prende tutti 10 agli esami, ma poi non sa farsi nemmeno un uovo al tegamino. Il fatto che Gemini 3.1 Pro primeggi sia nei benchmark tradizionali sia in quelli orientati al lavoro professionale è un segnale più robusto rispetto ai soli punteggi di laboratorio.

La corsa ai modelli AI non rallenta

Il lancio arriva in un momento di accelerazione febbrile nella guerra dei modelli AI. OpenAI, Anthropic e Google rilasciano aggiornamenti a ritmi sempre più serrati, nel tentativo di tenere il passo con gli altri. Anthropic ad esempio, nel giro di qualche settimana ha rilasciato Claude Opus 4.6 e ha aggiornato Sonnet con una finestra di contesto da 1 milione di token e prestazioni migliorate nel coding, per di più sia per gli utenti del piano gratuito, che Pro. Perplexity invece di aggiungere funzioni, ha tolto qualcosa, la pubblicità, lanciando una frecciatina a OpenAI.

I nuovi modelli sono sempre più orientati verso l’integrazione degli agenti AI. La capacità di eseguire compiti complessi in più passaggi, ragionare attraverso problemi complessi, e agire autonomamente, è diventato il terreno di confronto principale.

Gemini 3.1 Pro è attualmente disponibile in anteprima e sarà rilasciato pubblicamente a breve. Chissà quanto tempo resterà in cima alle classifiche prima che il prossimo modello di un concorrente lo spodesti.

Fonte: Google
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
20 feb 2026
Link copiato negli appunti