Chi non ha sognato di avere un assistente personale? Qualcuno a cui poter dire “prenota un tavolo per stasera nel ristorante giapponese che hai visto ieri”, che vada anche online, trovi il posto giusto, controlli se c’è disponibilità, compili il modulo di prenotazione e confermi tutto. Ora questo assistente esiste. Si chiama ChatGPT Agent ed è un’intelligenza artificiale che può fare tutte queste cose e molte altre, senza mai sbuffare o alzare gli occhi al cielo…
OpenAI ha appena lanciato ChatGPT Agent, uno strumento che trasforma l’AI da consulente intelligente ad assistente operativo. Non si tratta più di chattare con un bot che dà consigli o risponde a domande: è un agente che può navigare sul web, compilare moduli, gestire le app e completare compiti complessi in modo completamente autonomo.
La differenza tra ChatGPT e ChatGPT Agent
ChatGPT può aiutare a scrivere una email o cercare informazioni, ma il lavoro operativo spetta sempre all’utente. ChatGPT Agent invece, può Oggi, può eseguire intere sequenze di azioni autonomamente. L’agente AI, infatti, nasce dalla fusione di due strumenti che OpenAI ha sviluppato separatamente: Operator e Deep Research. Operator è specializzato nell’interazione web, può navigare sui siti, prenotare servizi e completare azioni basilari. Deep Research eccelle nell’analisi approfondita e produce report dettagliati attingendo a varie fonti.
Il problema era che entrambi avevano dei limiti importanti. Operator è abile nell’esecuzione, ma limitato nell’analisi. Deep Research al contrario, è brillante nella ricerca ma non può tradurre le sue scoperte in azioni concrete. ChatGPT Agent riunisce queste due anime in un unico strumento. Pensa come un ricercatore e agisce come un esecutore.
Come funziona ChatGPT Agent di OpenAI?
La cosa più impressionante di ChatGPT Agent, è che non ha bisogno che gli stiamo col fiato sul collo. Si dà un compito e lui sa cavarsela da solo: capisce la situazione, sceglie gli strumenti giusti, cambia strategia se qualcosa non funziona.
Tutto questo è possibile grazie a una tecnica chiamata “apprendimento per rinforzo“. In pratica l’AI impara dai propri errori. Ogni volta che porta a termine un lavoro, fa il punto della situazione: cosa è andato bene, cosa è andato storto. La volta dopo sarà più bravo. È un po’ come quando si impara ad andare in bicicletta: si cade, ci si rialza, si perfeziona la tecnica, finché si diventa sempre più stabili.
Il sistema ha accesso a una sorta di cassetta degli attrezzi, che include capacità di navigazione web, accesso ad API, operazioni sui file, generazione di codice e persino creazione di immagini. Ma quello che lo rende davvero potente è la sua capacità di decidere autonomamente quale strumento usare e quando passare da uno all’altro durante l’esecuzione di un compito complesso.
Una degli aspetti più interessanti di ChatGPT Agent è la possibilità di collegare le proprie app e account personali attraverso i connettori di ChatGPT. Questo significa che l’agente può accedere alla propria email, al calendario, ai documenti e ad altre informazioni personali per personalizzare le sue azioni.
Attenzione, non è solo un accesso di tipo tecnico, è capace di comprendere il contesto. Se si chiede di organizzare un meeting, l’agente di OpenAI può controllare gli impegni, identificare slot liberi comuni con i partecipanti, inviare inviti appropriati e persino prenotare una sala riunioni se necessario. Tutto questo senza che si debba specificare ogni singolo passaggio.
Cosa può fare ChatGPT Agent?
Tecnicamente, ChatGPT Agent opera attraverso un browser virtuale integrato che può navigare sul web proprio come farebbe un essere umano. Legge le pagine web, riempie i moduli con le informazioni giuste, clicca sui pulsanti giusti. Se deve fare qualcosa che richiede più passaggi, li segue uno dopo l’altro senza perdersi lungo la strada.
Il sistema combina un’interfaccia testuale con un browser visuale, permettendo all’agente di scegliere l’approccio più efficace per ogni situazione. Quando deve compilare un modulo complesso, può usare la modalità visuale per identificare campi e bottoni. Quando deve analizzare contenuti testuali, può passare alla modalità testuale. Questa flessibilità è cruciale.
E la sicurezza?…
Ovviamente, un’AI così autonoma fa venire qualche dubbio sulla sicurezza. OpenAI ha adottato diversi sistemi di protezione per evitare che l’agente combini pasticci, senza però renderlo inutile. Il primo livello di sicurezza sono i controlli di conferma. Anche può navigare autonomamente e completare molte azioni, si ferma sempre per chiedere permesso prima di sottoscrivere moduli importanti, effettuare login o eseguire azioni che potrebbero avere conseguenze importanti.
L’agente inoltre, opera in un ambiente sandbox che lo isola dal sistema operativo dell’utente. Può modificare calendari, scaricare file e interagire con servizi online, ma non può accedere direttamente ai file system locali o eseguire comandi che potrebbero compromettere la sicurezza del dispositivo.
OpenAI ha fatto particolare attenzione a un nuovo tipo di attacco chiamato “prompt injection“. È una nuova forma di truffa, che potrebbe indurre l’AI a comportarsi come non dovrebbe. Agent ha dei sistemi che riconoscono questi tentativi di manipolazione e li bloccano in automatico.
Una delle preoccupazioni più comprensibili riguardo agli agenti AI autonomi è che possano svuotare il conto corrente facendo acquisti a caso. OpenAI ha imposto una regola ferrea: ChatGPT Agent non compra mai niente senza che venga confermato espressamente. Niente sorprese sulla carta di credito, niente acquisti “intelligenti” fatti per conto dell’utente. Se deve spendere anche solo un centesimo, chiede prima il permesso.
È sicuramente un approccio prudente. Probabilmente, man mano che gli utenti svilupperanno fiducia nel sistema e OpenAI perfezionerà i i meccanismi di sicurezza, queste restrizioni potrebbero essere allentate per chi desidera una maggiore automazione. Ma per ora, ChatGPT Agent può completare tutti i passaggi di un processo di acquisto. Può ricercare i prodotti, confrontare i prezzi, trovare le opzioni migliori, ma si fermerà sempre prima del clic finale di conferma.
La disponibilità di ChatGPT Agent
ChatGPT Agent è stato lanciato immediatamente dopo l’annuncio, senza le usuali settimane di attesa. Tuttavia, l’accesso è diverso in base al tipo di abbonamento. Gli utenti ChatGPT Pro ricevono 400 query mensili con Agent, un limite generoso che permette un uso sostanziale dello strumento. Gli abbonati Plus e Team hanno accesso a 40 richieste al mese, sufficiente per sperimentare, ma non per un uso intensivo quotidiano.
OpenAI non è di certo l’unica ad aver messo gli occhi sugli agenti AI. Opera ha recentemente ha lanciato il suo browser agente Neon, mentre Perplexity sta testando il browser Comet. Anche Norton sta sviluppando Neo, un altro browser con intelligenza artificiale integrata.