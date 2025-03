Andrew Barto e Richard Sutton hanno vinto il Turing Award 2024 per aver creato le basi algoritmiche e concettuali del cosiddetto apprendimento per rinforzo, una tecnica utilizza per l’addestramento dei modelli di intelligenza artificiale attraverso un approccio basato su tentativi ed errori. I due scienziati hanno evidenziato i pericoli derivanti dallo sviluppo troppo rapido della tecnologia.

Turing Award per il reinforcement learning

Il Turing Award, noto anche come premio Nobel dell’informatica, viene assegnato annualmente dall’Association for Computing Machinery (ACM) con il supporto finanziario di Google. Andrew Barto e Richard Sutton si divideranno la somma di un milione di dollari. Barto è professore emerito di informatica alla University of Massachusetts (Amherst). Sutton è professore di informatica alla University of Alberta. Ha inoltre lavorato come ricercatore in Google DeepMind dal 2017 al 2023.

L’intelligenza artificiale è stata anche protagonista dei premi Nobel per la fisica e la chimica. Barto e Sutton hanno introdotto le idee principali, costruito le basi matematiche e sviluppato importanti algoritmi per l’apprendimento per rinforzo, uno degli approcci più importanti per la creazione di sistemi intelligenti.

Questo approccio permette di realizzare agenti AI che eseguono azioni autonome. Quelle corrette sono premiate con “ricompense”, un concetto preso in prestito dalla psicologia e dalla neuroscienza. Una tecnica di apprendimento per rinforzo è nota come apprendimento mediante differenza temporale (temporal difference learning) descritta nel libro “Reinforcement Learning: An Introduction” pubblicato dai due scienziati nel 1998.

Il più recente esempio di apprendimento per rinforzo è la vittoria del software AlphaGo di Google DeepMind contro giocatori umani di Go. Anche molti modelli di intelligenza artificiale generativa sono stati realizzati con l’apprendimento per rinforzo, tra cui GPT di OpenAI e R1 di DeepSeek.