I nuovi gioielli di casa OpenAI – 03 e 04-mini – promettevano di portare l’intelligenza artificiale un passo più vicino al ragionamento umano. Ma c’è un intoppo: soffrono di allucinazioni più spesso dei loro predecessori, come conferma un’inchiesta interna, finita nelle mani del New York Times.
Più questi sistemi diventano sofisticati, più tendono a “allucinare”, cioè a inventare fatti, citare studi mai pubblicati e creare collegamenti inesistenti.
ChatGPT più intelligente ma meno affidabile
o3, progettato per imitare la logica umana attraverso un approccio step by step, ha prodotto allucinazioni nel 33% dei test su personaggi pubblici. Un tasso di errore doppio rispetto al predecessore o1. Il modello più compatto o4-mini ha performato ancora peggio, con allucinazioni nel 48% dei casi.
Quando sottoposti al banco di prova SimpleQA (una serie di domande che valutano la conoscenza di base), i nuovi modelli hanno mostrato risultati allarmanti: o3 inventa fatti nel 51% delle risposte, mentre o4-mini raggiunge l’incredibile quota del 79%. Numeri che non rappresentano semplici errori tecnici, ma una crisi d’identità per sistemi che vengono presentati proprio come campioni di ragionamento logico.
Alcuni ricercatori ipotizzano che più un modello cerca di ragionare, più possibilità ha di uscire dai binari. A differenza dei modelli più semplici che si limitano a fornire risposte basate su previsioni molto sicure, i modelli di ragionamento devono esplorare scenari più complessi. Devono valutare diverse possibilità, collegare le informazioni e spesso colmare le lacune con supposizioni. E improvvisare sui fatti significa anche inventarseli.
Le allucinazioni AI sono pericolose e fanno perdere tempo (non solo quelle di ChatGPT)
Le allucinazioni sono l’opposto di ciò che OpenAI e company, vogliono dai loro modelli più avanzati. Chiamare i chatbot di AI “assistenti” e “copiloti” implica che siano d’aiuto, non un pericolo. Eppure, più l’AI diventa utile, meno margine c’è per l’errore.
Non si può sostenere di far risparmiare tempo e fatica alle persone se queste devono poi passare altrettanto tempo a controllare tutto ciò che l’AI dice. Certo, modelli come o3 hanno dimostrato capacità impressionanti di coding e logica, superando gli umani in alcuni compiti. Ma quando dichiarano con sicurezza che Marie Curie ha vinto un Oscar o che la Terra ha due lune visibili a occhio nudo, tutta la fiducia guadagnata svanisce in un istante.
Ciò significa che, finché questi problemi non saranno risolti, ogni risposta andrà presa con le pinze.