Durante la conferenza annuale degli sviluppatori I/O, Google ha annunciato una serie di novità incentrate sull’intelligenza artificiale, tra cui spicca Project Astra, un ambizioso progetto volto a costruire un assistente AI universale del futuro. L’obiettivo è quello di creare un agente di intelligenza artificiale multimodale in grado di comprendere le dinamiche del mondo circostante e rispondere in tempo reale per supportare l’utente nello svolgimento di compiti e nella risoluzione di domande di routine.
Il confronto con GPT-4o di OpenAI
La premessa di Project Astra è simile a ciò che OpenAI ha mostrato con ChatGPT alimentato da GPT-4o. Tuttavia, mentre GPT-4o inizia a essere distribuito nelle prossime settimane agli abbonati di ChatGPT Plus, Google sembra procedere con maggiore cautela. L’azienda sta ancora lavorando su Astra e non ha comunicato una data di lancio per il suo agente AI universale, limitandosi a segnalare che alcune funzioni del progetto arriveranno su Gemini nel corso dell’anno.
Project Astra: le potenzialità
Sfruttando i progressi ottenuti con Gemini Pro 1.5 e altri modelli AI specifici, Project Astra permette all’utente di interagire condividendo la complessa dinamica dell’ambiente circostante. L’assistente è in grado di comprendere in tempo reale ciò che vede e sente, fornendo risposte precise e contestualizzate, proprio come farebbe una persona.
Project Astra può contare anche su una memoria che gli consente di ricordare le interazioni precedenti, il contesto e l’ambiente, così da rispondere in modo coerente nel tempo.
Nei video dimostrativi rilasciati da Google, un prototipo dell’agente Project Astra, in esecuzione su uno smartphone Pixel, ha dimostrato di essere in grado di identificare gli oggetti, descriverne i componenti specifici, comprendere il codice scritto su una lavagna e persino riconoscere il quartiere attraverso il mirino della fotocamera.
Inoltre, ha mostrato segni di memoria indicando all’utente dove erano gli occhiali. In un’altra dimostrazione, l’agente ha suggerito miglioramenti all’architettura di un sistema, con i risultati sovrapposti alla visione dell’utente in tempo reale tramite un paio di occhiali.
Disponibilità di Astra
Al momento, il progetto rappresenta il primo passo di Google verso la realizzazione di un agente AI a tutti gli effetti, in grado di assistere nella vita quotidiana, sia in ambito lavorativo che personale. L’azienda non ha indicato una tabella di marcia precisa per trasformare Project Astra in un prodotto effettivo, ma ha confermato che la capacità di comprendere il mondo reale e di interagire allo stesso tempo arriverà nell’app Gemini su Android, iOS e sul web.
Inizialmente, verrà introdotta Gemini Live, consentendo agli utenti di avviare conversazioni bidirezionali con il chatbot. In seguito, entro la fine dell’anno, Gemini Live includerà alcune delle funzionalità di visione dimostrate durante la conferenza, permettendo agli utenti di aprire le loro fotocamere e discutere dell’ambiente circostante, con la possibilità di interrompere Gemini durante queste conversazioni.
“Con una tecnologia come questa, è facile immaginare un futuro in cui le persone potranno avere un assistente AI esperto al loro fianco, attraverso un telefono o degli occhiali“, ha aggiunto Hassabis.