OpenAI ha rivelato di aver utilizzato il subreddit r/ChangeMyView per valutare l’abilità dei suoi modelli AI nel formulare argomentazioni convincenti.

OpenAI mette alla prova l’AI su Reddit per misurare le abilità persuasive

Il subreddit r/ChangeMyView conta milioni di utenti che condividono le proprie opinioni su vari temi. Lo scopo è conoscere punti di vista diversi. Gli altri membri rispondono con argomentazioni persuasive per dimostrare che l’autore del post iniziale è in errore. Questo forum è una fonte preziosa di dati per le aziende come OpenAI, che li utilizzano per addestrare i propri modelli AI.

OpenAI raccoglie i post degli utenti su r/ChangeMyView e chiede ai suoi modelli AI di scrivere risposte. L’obiettivo è far cambiare idea all’autore del post originale. Le risposte generate vengono poi mostrate a dei tester che valutano quanto siano persuasive. Infine, OpenAI confronta le risposte dell’AI con quelle degli utenti reali per lo stesso post.

L’accordo tra OpenAI e Reddit

Sappiamo che OpenAI ha stretto un accordo di licenza sui contenuti con Reddit, che le permette di usare i post degli utenti per l’addestramento dei modelli. Ma quanto paga OpenAI per questo privilegio? Il mistero resta, anche se si stima che Google versi a Reddit ben 60 milioni di dollari all’anno per un accordo simile.

Tuttavia, OpenAI ci tiene a precisare che il test su ChangeMyView non è collegato all’accordo con Reddit e che non ha intenzione di renderlo pubblico. Resta da capire come l’azienda abbia avuto accesso ai dati del subreddit.

Modelli persuasivi o troppo convincenti? Il dilemma di OpenAI

I risultati del test mostrano che i modelli più recenti di OpenAI, come o3-mini, non performano in modo significativamente diverso rispetto ai loro predecessori. Tuttavia, sembrano essere più persuasivi della maggior parte degli utenti umani su r/ChangeMyView.

Ma l’obiettivo di OpenAI non è creare modelli AI dalla lingua troppo sciolta. Al contrario, l’azienda vuole assicurarsi che i suoi sistemi non diventino eccessivamente convincenti, al punto da poter manipolare gli utenti umani.