Jensen Huang, CEO di Nvidia, continua a ripeterlo come un mantra: la prossima grande ondata dell’intelligenza artificiale sarà fisica. Non chatbot che scrivono email, non generatori di immagini che producono gattini che suonano la chitarra. Robot, veicoli autonomi, macchine che percepiscono e interagiscono con il mondo reale. E Nvidia vuole costruire il cervello per tutti loro, partendo dalle auto che guidano da sole.
Lunedì, alla conferenza NeurIPS AI di San Diego, l’azienda ha annunciato Alpamayo-R1, quello che definisce il primo modello linguistico visivo di ragionamento aperto specificamente progettato per la ricerca sulla guida autonoma. In pratica, è un’AI che può “vedere” la strada davanti a sé e ragionare su cosa fare, invece di limitarsi a reagire a schemi preimpostati.
Nvidia annuncia modello AI open source per le auto autonome
Alpamayo-R1 si basa su Cosmos-Reason, un modello di ragionamento che Nvidia ha sviluppato per riflettere sulle decisioni prima di rispondere. Valuta la situazione, anticipa cosa potrebbero fare gli altri veicoli, e poi decide come muoversi. Non una reazione istintiva, ma un processo deliberato.
I modelli linguistici visivi, la categoria a cui Alpamayo-R1 appartiene, possono elaborare contemporaneamente testo e immagini. Il veicolo può letteralmente “vedere” l’ambiente circostante attraverso le telecamere e prendere decisioni basate su quella percezione visiva.
Secondo Nvidia, questo tipo di tecnologia è fondamentale per raggiungere il livello 4 di guida autonoma, quello dove il veicolo può operare in completa autonomia in un’area definita e in circostanze specifiche. Non la guida autonoma totale ovunque e sempre, ma abbastanza autonoma.
L’obiettivo è dare ai veicoli autonomi qualcosa di simile al “buon senso“. Quella capacità che gli esseri umani hanno di affrontare situazioni ambigue o complesse usando giudizio ed esperienza, invece di seguire ciecamente regole scritte. Come quando si vede un bambino che corre verso la strada e si rallenta anche se non c’è un segnale che obbliga a farlo, perché si capisce intuitivamente che è la cosa giusta da fare.
Insegnare il buon senso a un algoritmo è notoriamente difficile. È una di quelle cose che gli umani fanno senza pensarci, ma che diventa incredibilmente complicata quando si prova a tradurre in codice. Nvidia ci sta provando con modelli di ragionamento che simulano il processo decisionale umano, sperando che a furia di addestramento e dati questi sistemi sviluppino qualcosa che assomigli all’intuizione.
Il modello è già disponibile su GitHub e Hugging Face, completamente aperto per chiunque voglia sperimentarci. Nvidia ha anche rilasciato il Cosmos Cookbook, una raccolta di guide passo-passo, risorse per l’inferenza e flussi di lavoro post-formazione per aiutare gli sviluppatori a usare e addestrare i modelli Cosmos per i loro casi d’uso specifici. Tutto il necessario per trasformare questi strumenti in qualcosa di utilizzabile.