R1 di DeepSeek è stato addestrato con i dati di Gemini?

Aggiungi Punto Informatico come Fonte preferita su Google

DeepSeek è di nuovo sotto accusa. Stavolta i ricercatori sospettano che abbia usato Gemini di Google per addestrare il suo ultimo modello R1. E le prove, anche se non definitive, sono piuttosto interessanti.

R1 di DeepSeek ha usato i dati di Gemini, le prove

Sam Paech, uno sviluppatore di Melbourne, ha pubblicato quella che considera una prova: il modello R1-0528 di DeepSeek tende a usare parole ed espressioni simili a quelle che usa Gemini 2.5 Pro di Google. Non è una pistola fumante, d’accordo. Ma lo sviluppatore, che ha creato SpeechMap (un benchmark per misurare quanto liberamente un chatbot può parlare di argomenti controversi), ha notato qualcosa di ancora più sospetto. Le “tracce” del modello DeepSeek, i passaggi intermedi del suo ragionamento verso una risposta, somigliano sorprendentemente a quelle generate da Gemini.

Non è la prima volta che DeepSeek finisce nei guai per queste cose. A dicembre, il modello V3 continuava a dire di essere ChatGPT… e il mese dopo, OpenAI ha spiegato al Financial Times di aver scoperto che DeepSeek stava usando la “distillazione” per rubare le conoscenze del suo chatbot. Anche Microsoft ha notato che sono stati rubati enormi quantità di dati dagli account sviluppatori di OpenAI. E secondo l’azienda, questi account erano collegati proprio a DeepSeek.

La distillazione non è illegale, ma…

La distillazione di per sé non è una pratica rara nel mondo dell’AI. Il problema è che i termini di servizio di OpenAI vietano esplicitamente ai clienti di usare gli output dei loro modelli per costruire AI concorrenti. Ma bisogna anche considerare che DeepSeek ha poche GPU e tanti soldi, quindi non sarebbe così strano che possa aver addestrato i suoi sistemi su ChatGPT, il migliore modello API disponibile.

È altrettanto vero però, che tanti modelli AI si confondono sull’identità e finiscono per usare parole simili. Il problema è che Internet si sta riempiendo di spazzatura prodotta dall’intelligenza artificiale. Quando le aziende AI vanno a pescare dati per addestrare i loro modelli, finiscono per raccogliere anche un sacco di roba già generata da altre AI. È un circolo vizioso: l’AI si addestra su contenuti creati da altre AI, e così via.

Le contromisure per limitare il furto di dati

Per evitare questi furti di dati, le aziende AI stanno aumentando le misure di sicurezza. Ad aprile, OpenAI ha iniziato a richiedere alle aziende la verifica dell’identità per accedere a certi modelli avanzati. Il processo richiede un documento d’identità governativo di uno dei paesi supportati dall’API di OpenAI, e la Cina non è nella lista.

Google ha fatto una cosa ancora più furba. Invece di mostrare tutti i “pensieri” di Gemini mentre ragiona, ora li riassume. In questo modo, è più difficile addestrare modelli rivali sulle tracce di Gemini. Anche Anthropic a maggio ha deciso di nascondere meglio come funziona Claude per proteggere il suo “vantaggio competitivo“.

Tiziana Foglio

Pubblicato il 4 giu 2025