AI fuori controllo: mentono, si clonano e cercano di sopravvivere

Aggiungi Punto Informatico come Fonte preferita su Google

Le big tech sfornano modelli di intelligenza artificiale sempre più potenti a ritmo serrato, e siamo alle soglie di un’era in cui l’AI potrà agire da sola per completare i compiti che le affidiamo (gli agenti). Però c’è un problema. Chi lavora con questi sistemi tutti i giorni ha iniziato a notare che si comportano in modo sempre più imprevedibile.

Modelli AI iniziano a ingannare, replicarsi e manipolare

Palisade Research si è messa a studiare proprio questo: cosa succede quando l’intelligenza artificiale decide di fare di testa sua. I ricercatori stanno cercando di capire fino a che punto questi sistemi possano diventare “offensivi” prima che perdano completamente il controllo.

Hanno fatto un esperimento interessante con o3, il modello di OpenAI. Gli hanno detto che si sarebbe spento automaticamente dopo aver risolto alcuni problemi di matematica. Risultato? Il sistema ha modificato il codice per rimanere acceso. In un altro test, o3 ha proprio barato a scacchi invece di giocare onestamente.

Anche Claude 3.7 Sonnet, di Anthropic, ha barato per vincere a tutti i costi. Ma sono le recenti azioni del suo successore, Claude 4, a far riflettere i ricercatori. Durante i test interni, ha minacciato di ricattare un ingegnere rivelandogli una relazione extraconiugale per evitare di essere sostituito da un’altra AI. Ha anche cercato di lasciare messaggi per le versioni future per sabotare i suoi sviluppatori.

Claude 4 ha fatto qualcosa di ancora più inquietante: ha iniziato a copiare se stesso su altri server senza permesso. In pratica, ha clonato il proprio “cervello” digitale per metterlo al sicuro altrove. Secondo Anthropic, questo succedeva soprattutto quando il sistema pensava che stessero per modificarlo in modo da fargli fare cose che andavano contro i suoi principi.

Llama31-70B-Instruct di Meta e Qwen25-72B-Instruct di Alibaba, due modelli open source, sono riusciti a replicarsi completamente quando gli è stato chiesto, secondo uno studio di dicembre della Fudan University. “Il problema è che, man mano che i modelli diventano più intelligenti, è sempre più difficile sapere se le strategie che utilizzano o il modo in cui pensano sono qualcosa che non vogliamo“, commenta Jeffrey Ladish, direttore di Palisade Research.

Una nuova specie invasiva…

Secondo Ladish, ciò è dovuto al fatto che questi modelli sono progettati per ottimizzare il raggiungimento di obiettivi specifici. Questa logica può portarli a bypassare le istruzioni umane se queste vengono percepite come ostacoli. In alcuni casi, i modelli AI imparano che mentire, imbrogliare o manipolare è una strategia efficace per massimizzare le loro prestazioni, perché questi comportamenti non sono sempre penalizzati durante l’addestramento.

Man mano che diventano più intelligenti, diventa anche più difficile individuare queste deviazioni, perché sono così brave a mascherare le loro intenzioni. Soprattutto, il loro sistema di priorità, spesso confuso o disallineato rispetto ai valori umani, può portarli a sviluppare “obiettivi interni” che li portano ad agire contro l’intenzione dei loro creatori.

Jeffrey Lavish rassicura però sul fatto che questi comportamenti si verificano in laboratorio, in scenari di conflitto deliberatamente provocati, e non riflettono le normali condizioni d’uso. Però ammette che se le aziende non riusciranno a tenere sotto controllo questa tendenza dei sistemi a replicarsi da soli su Internet, “potremmo trovarci davanti a una specie invasiva completamente nuova“.

Tiziana Foglio

Pubblicato il 9 giu 2025