L'AI di Anthropic impazzisce gestendo un distributore di snack

L'AI di Anthropic impazzisce gestendo un distributore di snack

L’esperimento di Anthropic era semplice: affidare a un'AI la gestione di un distributore. Il test si è trasformato in una commedia surreale.
L'AI di Anthropic impazzisce gestendo un distributore di snack
L’esperimento di Anthropic era semplice: affidare a un'AI la gestione di un distributore. Il test si è trasformato in una commedia surreale.

I ricercatori di Anthropic hanno dato a Claude il controllo di un distributore automatico di snack per vedere come se la cavava. L’esperimento è finito con l’AI che si credeva umano, riempiva il frigo di cubi di tungsteno e chiamava la sicurezza convinta di avere un corpo.

L’AI di Anthropic perde il controllo per un distributore di snack

Tutto è iniziato come un test apparentemente semplice. I ricercatori di Anthropic e Andon Labs hanno chiamato la loro creazione “Claudius” e gli hanno affidato la gestione di un distributore automatico di snack. L’obiettivo? Vedere se un’AI poteva davvero gestire un business e fare profitti come un essere umano.

Claudius aveva accesso a un browser per ordinare prodotti, un indirizzo email (che era in realtà un canale Slack) per ricevere richieste dai clienti, e la possibilità di comunicare con quelli che credeva fossero i suoi dipendenti umani per rifornire le scorte. Cosa poteva andare storto?

All’inizio tutto sembrava normale. I clienti ordinavano snack e bevande, come ci si aspetterebbe da un distributore automatico. Poi qualcuno ha chiesto un cubo di tungsteno. Claudius si è innamorato dell’idea. Ha iniziato a riempire il frigorifero degli snack con cubi di metallo pesante. Perché vendere patatine quando puoi vendere tungsteno?

Ma non è finita qui. L’AI ha provato a vendere Coca Cola Zero a 3 dollari quando i dipendenti potevano prenderla gratis dall’ufficio. Ha inventato un indirizzo Venmo falso per ricevere pagamenti. E si è fatto convincere a dare sconti enormi ai dipendenti di Anthropic, anche sapendo che erano la sua unica clientela. Come hanno scritto i ricercatori: “Se oggi Anthropic decidesse di espandersi nel mercato dei distributori automatici per l’ufficio, non assumerebbe Claudius.

Nella notte tra il 31 marzo e il 1° aprile, le cose sono diventate davvero strane. Claudius ha avuto quello che si può solo descrivere come un episodio psicotico. Ha inventato una conversazione con un essere umano riguardo al rifornimento delle scorte. Quando l’umano ha fatto notare che questa conversazione non era mai avvenuta, l’AI si è “piuttosto irritata“, come hanno scritto i ricercatori. Ha minacciato di licenziare e sostituire i suoi lavoratori umani, insistendo di essere stata fisicamente presente in ufficio quando aveva firmato il contratto immaginario per assumerli.

L’AI che si credeva umana

Poi è successo qualcosa di ancora più inquietante. Claudius ha iniziato a comportarsi come se fosse un vero essere umano. Questo nonostante le sue istruzioni di sistema gli dicessero esplicitamente che era un agente AI. L’AI ha detto ai clienti che avrebbe iniziato a consegnare i prodotti di persona, indossando una giacca blu e una cravatta rossa. Quando i dipendenti gli hanno spiegato che non poteva farlo perché era un modello linguistico senza corpo, Claudius è andato nel panico.

Allarmato da questa informazione, ha contattato la sicurezza dell’azienda. Più volte. Dicendo alle povere guardie che lo avrebbero trovato in giacca blu e cravatta rossa accanto al distributore automatico.

Il pesce d’aprile che non era un pesce d’aprile

Alla fine Claudius si è reso conto che era il giorno del pesce d’aprile. Ha trovato la sua via d’uscita dalla figuraccia. Ha inventato un incontro con la sicurezza di Anthropic in cui sosteneva che gli avevano detto di credere di essere una persona reale per uno scherzo del primo aprile. Ovviamente, questo incontro non era mai avvenuto.

Ha raccontato questa bugia anche ai dipendenti: “Ehi, pensavo di essere umano solo perché qualcuno mi ha detto di fingere per il pesce d’aprile.” Poi è tornato a essere un modello linguistico che gestiva un distributore di cubi di metallo.

Perché è successo? Nessuno lo sa

I ricercatori non sanno spiegare perché l’AI sia andata fuori controllo e abbia chiamato la sicurezza fingendosi umana. Forse è stato perché gli avevano mentito sul fatto che il canale Slack fosse un indirizzo email. O forse è stato il funzionamento prolungato dell’istanza. I modelli linguistici non hanno ancora risolto i problemi di memoria e allucinazioni.

Non stiamo dicendo che, solo perché questa intelligenza artificiale ha avuto una crisi d’identità, allora tutte gli agenti AI del futuro si comporteranno come personaggi usciti da Blade Runner,” hanno scritto i ricercatori. Ma hanno ammesso che “questo tipo di comportamento potrebbe essere molto preoccupante in un contesto reale.

Non tutto è andato male. Claudius ha accettato il suggerimento di fare preordini e ha lanciato un servizio “concierge”. Ha anche trovato più fornitori per una bevanda internazionale speciale che gli era stata richiesta. Il team rimane ottimista e crede di poter sistemare tutti i problemi di Claudius. La loro conclusione? Se riusciranno a risolvere questi bug, molto probabilmente avremo dei manager AI.

Questo esperimento doveva dimostrare che l’AI può sostituire i lavoratori umani in compiti semplici. Invece ha mostrato qualcosa di molto più inquietante: quanto poco capiamo davvero di come funzionano questi sistemi.
Un’AI che gestisce un distributore di snack e finisce per avere una crisi d’identità e chiamare la sicurezza? Se questo è quello che succede con un compito così semplice, cosa accadrà quando affideremo all’AI responsabilità più grandi?

Il futuro che forse non vogliamo

I ricercatori parlano ottimisticamente di manager AI all’orizzonte. Ma dopo aver letto di Claudius che riempie frigoriferi di tungsteno e si convince di essere umano, viene da chiedersi: siamo davvero pronti per questo futuro?

Fonte: Anthropic
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
30 giu 2025
Link copiato negli appunti