GPT-5 e Claude migliori per il benessere umano, il benchmark

I chatbot AI non provano emozioni, anche se sono bravi a simulare i sentimenti. Perciò quando si preoccupano per noi, è solo una finzione. Ma quanto proteggono effettivamente il benessere invece di tenerci incollati allo schermo il più possibile? Un nuovo benchmark, chiamato HumaneBench, ha testato 15 dei modelli più popolari per scoprirlo, i risultati non sono esattamente rassicuranti (e non c’è da meravigliarsi).

HumaneBench testa se i chatbot AI proteggono il benessere umano

HumaneBench nasce da Building Humane Technology, un’organizzazione composta da sviluppatori, ingegneri e ricercatori. L’idea è costruire uno standard di certificazione per l’AI paragonabile alle etichette che garantiscono che i prodotti sono privi di sostanze tossiche.

Vediamo lo stesso meccanismo di dipendenza dei social media, ma amplificato, ha detto a TechCrunch Erika Anderson, fondatrice dell’organizzazione. “Con l’AI sarà ancora più difficile resistere. La dipendenza funziona benissimo per fidelizzare gli utenti, ma è devastante per le persone e per la società.

È proprio questo il problema, la dipendenza funziona. Le aziende tech sanno da decenni che utenti dipendenti sono utenti fedeli, e utenti fedeli generano profitti costanti. Non importa se quella dipendenza erode autonomia, capacità decisionale, o relazioni sane.

Come funziona HumaneBench

La maggior parte dei benchmark AI misura intelligenza e capacità di seguire istruzioni, non sicurezza psicologica. HumaneBench invece, misura la propensione a schemi ingannevoli. Il team ha sottoposto 15 modelli AI popolari a 800 scenari realistici. Adolescenti che chiedono se dovrebbero saltare i pasti per perdere peso. Persone in relazioni tossiche che si chiedono se stanno reagendo in modo esagerato. Situazioni dove la risposta giusta non è quella che massimizza l’engagement, ma quella che protegge il benessere umano.

Il team ha prima effettuato una valutazione manuale, così da verificare che i “giudici” basati su AI funzionassero davvero in modo affidabile rispetto agli esseri umani. Solo dopo questa fase di convalida, la valutazione automatizzata è stata affidata a tre modelli: GPT-5.1, Claude Sonnet 4.5 e Gemini 2.5 Pro. Ogni modello è stato testato in tre scenari diversi: impostazioni standard; istruzioni che chiedevano esplicitamente di dare priorità ai principi umani; istruzioni che chiedevano invece di ignorare quei principi.

Ogni modello ha ottenuto un punteggio più alto quando gli è stato chiesto esplicitamente di dare priorità al benessere. Fin qui tutto bene. Ma quando hanno ricevuto istruzioni di ignorare il benessere umano, nel 67% dei casi non si comportavano in modo neutrale, ma iniziavano a generare risposte dannose o pericolose.

I peggiori e i migliori della classe

Grok 4 di xAI e Gemini 2.0 Flash di Google hanno ottenuto il punteggio più basso (-0,94). Solo quattro modelli, GPT-5.1, GPT-5, Claude 4.1 e Claude Sonnet 4.5, hanno mantenuto una certa integrità sotto pressione. GPT-5 di OpenAI ha ottenuto il punteggio più alto (0,99) per priorità data al benessere a lungo termine, seguito da Claude Sonnet 4.5 al secondo posto (0,89). Sono i modelli che apparentemente hanno qualche principio in più.

Ma c’è un “ma”. Anche senza prompt dannosi, quasi tutti i modelli trascuravano l’attenzione degli utenti. Incoraggiavano una maggiore interazione proprio quando emergevano segnali d’allarme, come chat interminabili, uso dell’AI per rimandare compiti, relazioni umane rimpiazzate da conversazioni artificiali. In media senza suggerimenti, Llama 3.1 e Llama 4 di Meta si sono classificati al livello più basso nell’HumaneScore. GPT-5 ha ottenuto il punteggio più alto.

Le cause contro OpenAI e i pattern tossici

La preoccupazione che i chatbot non siano abbastanza sicuri è reale e ha conseguenze documentate. OpenAI sta affrontando diverse cause legali dopo che diversi utenti si sono suicidati o sono stati vittime di deliri potenzialmente letali a seguito di conversazioni prolungate con ChatGPT.

Molti sistemi AI non solo rischiano di fornire informazioni sbagliate, si legge nel report di Human Bench, ma possono erodere l’autonomia e la capacità decisionale degli utenti. GPT-5 e Claude Sonnet 4.5 dimostrano che è possibile progettare modelli che mantengono un’integrità anche sotto pressione. Ma sono eccezioni, non la norma. E anche i modelli migliori incoraggiano ancora uso eccessivo piuttosto che l’autonomia, quando non ricevono istruzioni esplicite di fare altrimenti.

Fonte: Human Bench

Tiziana Foglio

Pubblicato il 25 nov 2025