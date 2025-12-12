Google ha presentato la versione “rivisitata” del suo agente di ricerca Gemini Deep Research, basato sul modello Gemini 3 Pro. Stesso giorno, poche ore dopo, OpenAI ha rilasciato GPT-5.2. Coincidenza? Come credere che Babbo Natale esista davvero…

Google sapeva che il mondo intero tratteneva il respiro per l’arrivo di GPT-5.2, così ha deciso di rubare la scena lanciando il proprio gioiellino proprio quando tutti gli occhi erano puntati su OpenAI.

Google presenta Deep Research equipaggiato con Gemini 3 Pro

Gemini Deep Research è un agente progettato per divorare montagne di informazioni e restituire report strutturati su qualsiasi cosa passi per la testa. La vera novità sta nella nuova API Interactions, che permette agli sviluppatori di integrare le capacità di ricerca dell’agente nelle proprie applicazioni.

Ciò vuol dire che presto Deep Research sarà integrato in Google Search, Google Finance, l’app Gemini e NotebookLM. L’obiettivo è chiaro: un futuro dove non sarà più l’utente a cercare informazioni su Google, ma sarà il proprio agente personale a farlo.

A detta di Google, Gemini 3 Pro è il modello “più fattuale” mai creato, addestrato specificamente per ridurre le allucinazioni, il tallone d’Achille di tutti i sistemi AI. Anche OpenAI, con GPT-5.2 ha fatto, guarda caso, la stessa promessa.

Il problema è serio, soprattutto nel caso di agenti autonomi che devono prendere decisioni su decisioni per ore o giorni. Ogni scelta è un bivio, e basta una singola svolta sbagliata basata su un’allucinazione per mandare all’aria tutto. Basta immaginare un agente che fa ricerca per settimane su una questione legale complessa e poi basa una conclusione critica su un precedente giudiziario che semplicemente… non esiste… non è esattamente il massimo.

Google assicura che Gemini 3 Pro è stato addestrato proprio per evitare questi disastri. Ci crediamo? Vedremo.

I benchmark e la gara infinita dei numeri

Per dimostrare quanto sia bravo il suo nuovo giocattolo, Google ha creato un nuovo benchmark. Si chiama DeepSearchQA, ed è progettato per testare gli agenti su compiti complessi di ricerca articolati in più fasi. Naturalmente Google ha reso open source questo benchmark, così tutti possono verificare quanto è oggettivo e imparziale un test creato da Google per valutare il prodotto di Google.

Ma non basta. Google ha testato Deep Research anche su Humanity’s Last Exam, un benchmark indipendente pieno di compiti di nicchia estrema, e su BrowserComp, che valuta le capacità degli agenti nei task basati su browser. Risultato? Deep Research ha dominato sul proprio benchmark (sorpresa!) e su Humanity’s Last Exam. ChatGPT 5 Pro di OpenAI si è piazzato secondo con un margine sorprendentemente ridotto e ha persino battuto Google su BrowserComp.

GPT-5.2, OpenAI colpisce ancora

E poi è arrivato lui: GPT-5.2. OpenAI sostiene che il nuovo modello supera i rivali, Google in primis, su una serie di benchmark standard, inclusi quelli sviluppati internamente da OpenAI stessa. E la guerra continua…