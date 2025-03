Chi pensava che far giocare l’AI a Pokémon fosse il massimo della sfida, dovrà ricredersi… Secondo un gruppo di ricercatori, Super Mario Bros. è un osso ancora più duro per l’intelligenza artificiale.

Super Mario usato per valutare le prestazioni dell’intelligenza artificiale

L’Hao AI Lab, un’organizzazione di ricerca dell’Università della California a San Diego, ha deciso di buttare nella mischia alcune delle AI più avanzate del momento. Claude 3.7 di Anthropic, Claude 3.5, Gemini 1.5 Pro di Google e GPT-4o di OpenAI si sono sfidate a colpi di salti e schiacciateste in una versione emulata del classico del 1985.

Ma attenzione, non è stato un testa a testa alla pari. I ricercatori hanno usato GamingAgent, un framework sviluppato in casa, per dare ai modelli AI il controllo di Mario. Questo strumento ha fornito alle contendenti istruzioni di base come “Se un ostacolo o un nemico è vicino, muoviti o salta a sinistra per schivarlo” e screenshot del gioco in tempo reale. Le AI hanno poi generato input sotto forma di codice Python per muovere l’idraulico più famoso del web.

Nonostante questi aiutini, Hao sostiene che il gioco abbia costretto ogni modello a “imparare” a pianificare manovre complesse e a sviluppare strategie di gioco. E qui viene il bello: i modelli che ragionano, come o1 di OpenAI, che “pensano” passo dopo passo per arrivare a una soluzione, se la sono cavata peggio dei modelli standard, nonostante siano in genere più forti nella maggior parte dei benchmark.

Ma perché i modelli che ragionano fanno così fatica con i giochi in tempo reale come Super Mario Bros.? Secondo i ricercatori, la colpa è tutta del tempo. Questi modelli ci mettono secondi, di solito, per decidere che azione intraprendere. E in Super Mario, dove un istante può fare la differenza tra un salto riuscito e una caduta nel baratro, questo ritardo è fatale.

Benchmark in crisi d’identità?

Usare i videogiochi per testare l’AI non è una novità, ma alcuni esperti mettono in dubbio la validità del metodo. Andrej Karpathy di OpenAI ha scritto su X: “Non so davvero quali metriche guardare in questo momento. In sintesi, non so quanto siano buoni questi modelli al momento“.