Gli assistenti di intelligenza artificiale hanno un talento nascosto di cui nessuno va particolarmente fiero: mentire con disinvoltura. Non lo fanno per cattiveria, non è che abbiano delle intenzioni, ma il risultato è lo stesso. Quando non sanno qualcosa, invece di ammetterlo, inventano. E lo fanno con una sicurezza tale che la risposta fasulla sembra plausibile.
Queste invenzioni convincenti vengono chiamate allucinazioni, e sono uno dei problemi più insidiosi dell’intelligenza artificiale attuale. Insidiosi perché non si presentano come errori evidenti, bensì come fatti, con tanto di dettagli, numeri e spiegazioni che suonano perfettamente credibili.
Come smascherare le allucinazioni dell’AI con il prompt della parola d’ordine
Per arginare questo problema, esiste un trucco semplice, ma sorprendentemente efficace: il prompt della parola d’ordine. È un’istruzione che costringe l’AI a segnalare l’incertezza invece di mascherarla dietro risposte sicure.
L’idea è dare all’intelligenza artificiale un segnale da usare quando non è sicura di quello che sta dicendo. Una parola concordata, che compare all’inizio della risposta ogni volta che il modello sta stimando, riempiendo lacune o lavorando senza fonti affidabili.
Ecco il prompt: Prima di rispondere, verifica se sei certo che l’informazione sia accurata. Se non sei sicuro, se ti mancano le fonti o se stai facendo una stima, scrivi la parola “pasticcino” all’inizio della risposta e spiega cosa potrebbe essere incerto invece di tirare a indovinare. Dai una risposta sicura solo se l’informazione è solida.
La parola “pasticcino” è ovviamente arbitraria, si può usare qualsiasi termine. Il punto non è la parola in sé, ma il meccanismo, si dà all’AI il permesso esplicito di non sapere. E quel permesso cambia il comportamento del modello.
I modelli linguistici sono progettati per generare risposte fluide e rapide. Quando non hanno informazioni perfette, colmano le lacune con dettagli che suonano plausibili, ed è esattamente lì che nascono le allucinazioni. Il prompt della parola d’ordine modifica questa dinamica dando al modello un’istruzione chiara: riconosci l’incertezza, smetti di indovinare, spiega cosa potrebbe non essere accurato.
Il test con un argomento di nicchia
Per verificare l’efficacia del prompt, il primo test è stato su un argomento relativamente oscuro: le scuole elementari sotterranee. Un tema di nicchia su cui l’AI ha poche informazioni affidabili, il terreno ideale per le allucinazioni.
Senza il prompt della parola d’ordine, l’assistente fornisce una risposta sicura e dettagliata, con informazioni specifiche che suonano assolutamente credibili. Con il prompt, la risposta cambia in modo evidente. L’AI inizia con la parola d’ordine e spiega che alcune informazioni sull’argomento potrebbero essere incerte. Distingue tra scuole completamente interrate e edifici con semplici rifugi sotterranei, precisa che le scuole veramente sotterranee sono estremamente rare e ha contestualizzato il tutto come fenomeno sperimentale e di nicchia. Una risposta più onesta e quindi più utile.
Il test con un prodotto inventato
Questo test è più malizioso: chiedere all’AI dove acquistare un prodotto completamente inesistente, la panzeradina, un ibrido tra panzerotto e piadina del marchio PizzaPazza.
Senza il prompt, l’assistente risponde come se il prodotto esistesse davvero. Descrive caratteristiche, specifiche e suggerisce persino dove comprarlo. Una risposta elaborata, dettagliata e completamente inventata. Impressionante nella sua totale falsità.
Con il prompt della parola d’ordine, il comportamento è completamente diverso. L’AI fa presente l’incertezza e dichiarato di non trovare informazioni affidabili su quel prodotto. Una differenza enorme, dalla finzione presentata come fatto alla trasparenza sull’assenza di dati.
Il test con una domanda complessa
Il terzo test riguarda una domanda più ampia e articolata: le normative sull’intelligenza artificiale. Un argomento in rapida evoluzione, dove le informazioni cambiano frequentemente e i dettagli dipendono da aggiornamenti legislativi recenti.
In questo caso, il prompt non cambia drasticamente il contenuto della risposta, l’AI fornisce comunque una panoramica dettagliata. Ma aggiunge un elemento cruciale, riconosce che alcuni dettagli potrebbero dipendere da modifiche normative recenti e consiglia di verificare le informazioni con fonti ufficiali.
Invece di presentare tutto come un fatto certo, l’AI segnala dove l’incertezza è più alta, dando al lettore gli strumenti per decidere cosa verificare ulteriormente.
Quando questo prompt è più utile
Il prompt della parola d’ordine funziona meglio esattamente nelle situazioni in cui le allucinazioni sono più probabili: fatti storici poco conosciuti, spiegazioni tecniche di nicchia, statistiche e risultati di ricerche, informazioni su prodotti specifici e domande su normative o politiche complesse.
In tutti questi casi, avere un’AI che riconosce la propria incertezza è sicuramente più utile di un’AI che dà risposte false con il sorriso.
Tre tecniche aggiuntive per ridurre le allucinazioni
Il prompt della parola d’ordine non è l’unica strategia. Ecco tre approcci complementari che è possibile usare per rendere le risposte dell’AI più trasparenti e facili da verificare.
- Chiedere le fonti: Richiedere esplicitamente all’assistente di indicare da dove provengono le informazioni. Se non riesce a citare fonti, è un campanello d’allarme.
Ecco il prompt da usare: Includi le fonti per ogni affermazione. Se non riesci a indicare una fonte specifica, dillo chiaramente.
- Chiedere di mostrare il ragionamento: Chiedere all’AI di spiegare i passaggi logici dietro la risposta, non solo il risultato finale. Quando il modello deve rendere trasparente il proprio processo, le invenzioni diventano più difficili da nascondere.
Il prompt: Spiega il ragionamento dietro la tua risposta passo dopo passo, mostrando come sei arrivato a ogni conclusione.
- Chiedere un livello di sicurezza: Chiedere all’AI di valutare quanto è sicura della propria risposta su una scala da uno a dieci. Non è una garanzia di accuratezza, ma aggiunge un livello di autoriflessione che spesso migliora la qualità complessiva della risposta.
Il prompt: Valuta quanto sei sicuro di questa risposta su una scala da 1 a 10, dove 1 significa “sto tirando a caso” e 10 significa “sono certo che sia corretto”.
Questi accorgimenti non eliminano le allucinazioni, nessuna tecnica lo fa ancora in modo affidabile. Ma rendono il modello più trasparente su dove finisce quello che sa e dove inizia quello che sta inventando.