I chatbot possono eseguire diversi compiti, tra cui velocizzare la scrittura di codice. Uno studio, pubblicato da quattro ricercatori della Purdue University e illustrato durante la Computer-Human Interaction Conference, ha tuttavia evidenziato che ChatGPT risponde spesso in modo sbagliato alle domande sulla programmazione. Ciò potrebbe causare un aumento delle vulnerabilità nei software.
Meglio non chiedere nulla a ChatGPT
I ricercatori hanno effettuato test approfonditi con la versione gratuita di ChatGPT basata sul modello GPT-3.5. È probabile quindi che i risultati siano migliori con la versione Plus che sfrutta GPT-4. Come input sono state scelte 517 domande pubblicate su Stack Overflow (che recentemente ha sottoscritto un accordo con OpenAI, innescando le proteste degli utenti).
I ricercatori hanno verificato la correttezza e la completezza delle risposte fornite da ChatGPT, oltre alla consistenza rispetto alle risposte scritte dagli utenti su Stack Overflow. Al termine del test, il chatbot ha risposto in modo sbagliato al 52% delle domande, il 78% delle risposte sono inconsistenti con quelle umane e il 77% contiene informazioni ridondanti, irrilevanti o non necessarie.
I ricercatori hanno successivamente mostrato le risposte a 12 programmatori (campione poco rappresentativo, ndr). Nel 35% dei casi hanno considerato corrette le risposte sbagliate del chatbot. Questo è un dato molto preoccupante, in quanto potrebbe essere scritto codice con vulnerabilità.
Lo studio conferma che non si deve fare affidamento sull’intelligenza artificiale generativa, in quanto le cosiddette allucinazioni sono ancora troppe, come dimostrano le risposte ottenute dagli utenti con la funzionalità AI Overviews di Google Search. L’azienda californiana apporterà le necessarie modifiche al modello Gemini, ma il problema non può essere risolto completamente.