Gemini 2.5 Flash, l’ultimo modello AI di Google, perde colpi sulla sicurezza. È quanto emerge da un rapporto tecnico pubblicato questa settimana dalla stessa azienda di Mountain View.
Gemini 2.5 Flash di Google meno sicuro del predecessore
Secondo i benchmark interni, il modello Gemini 2.5 Flash ha una maggiore probabilità di generare testo che viola le linee guida sulla sicurezza di Google rispetto al precedente Gemini 2.0 Flash. In particolare, su due metriche chiave – la sicurezza “da testo a testo” e “da immagine a testo” – il nuovo modello segna un regresso rispettivamente del 4,1% e del 9,6%.
Questi test, condotti in modo automatizzato e senza supervisione umana, misurano la frequenza con cui un modello viola le policy di Google quando viene sollecitato con un prompt testuale o un’immagine.
I risultati arrivano in un momento in cui le aziende del settore AI sembra orientarsi verso una maggiore permissività, con modelli che tendono meno a rifiutare domande su temi controversi o delicati. Meta ha rivelato di aver calibrato i suoi recenti modelli Llama per mantenere una neutralità ideologica e rispondere a interrogativi politici dibattuti senza favorire specifiche prospettive. Anche OpenAI ha manifestato l’intenzione di modificare le future versioni dei propri sistemi per offrire più punti di vista sui temi più scottanti.
Ma a volte questi sforzi di apertura si sono rivelati un boomerang. Proprio recentemente, è emerso che ChatGPT permetteva ai minori di generare conversazioni erotiche, un comportamento che OpenAI ha attribuito a un bug.
Gemini 2.5 Flash a volte genera contenuti discutibili
Secondo il rapporto tecnico di Google, l’azienda ammette che Gemini 2.5 Flash, ancora in anteprima, segue le istruzioni in modo più fedele del 2.0, anche quando queste sconfinano in territori problematici. Big G sostiene che parte di questi regressi siano dovuti a falsi positivi, ma riconosce anche che il nuovo modello “a volte genera contenuti discutibili” quando gli viene esplicitamente richiesto.
Anche i punteggi di SpeechMap, un benchmark che sonda come i modelli rispondono a prompt sensibili e controversi, suggeriscono che Gemini 2.5 Flash sia molto meno propenso a rifiutarsi di rispondere a domande spinose rispetto al suo predecessore.
Per Thomas Woodside, co-fondatore del Secure AI Project, i pochi dettagli forniti da Google nel suo rapporto tecnico dimostrano la necessità di maggiore trasparenza nei test sui modelli. L’ultimo modello Flash di Google è più obbediente ma viola di più le policy. Google non fornisce molti dettagli sui casi specifici di violazione, pur dicendo che non sono gravi. Senza saperne di più, per gli analisti indipendenti è difficile capire se c’è un problema.
Ci risiamo, quindi. Google è di nuovo sotto accusa per come gestisce la sicurezza dei suoi modelli AI. Per il suo modello più avanzato, Gemini 2.5 Pro, ci ha messo un’eternità a pubblicare il rapporto tecnico, e quando finalmente è arrivato, mancavano tutti i dettagli importanti sui test di sicurezza. Solo dopo le critiche, rilasciato un report più dettagliato con informazioni aggiuntive.