Buone notizie per gli sviluppatori. OpenAI ha annunciato aggiornamenti importanti per Codex, il suo assistente per la programmazione, e gli agenti vocali.
Codex si connette a Internet
La novità più importante riguarda Codex, che ora può finalmente accedere a Internet. Può sembrare ovvio, ma fino a ieri l’assistente era isolato dal web, limitando parecchio quello che poteva fare. Ora Codex può installare dipendenze, aggiornare pacchetti e eseguire test che hanno bisogno di risorse esterne. In pratica, può fare tutto quello che un normale programmatore farebbe.
La connessione a Internet è disabilitata di default per motivi di sicurezza, ma si può attivare per ambienti specifici. Si ha anche il controllo completo sui domini a cui Codex può accedere, così non c’è il rischio che vada a curiosare dove non deve.
Oltre alla connessione Internet, Codex ora può aggiornare le pull request esistenti quando si segue un compito, invece di dover ricominciare tutto da capo ogni volta. Ma la cosa più comoda è che possibile dargli istruzioni a voce. Invece di scrivere lunghe descrizioni di quello che si vuole che faccia, basta parlare direttamente e Codex capisce cosa deve programmare.
Codex è disponibile anche agli utenti ChatGPT Plus, almeno per un periodo limitato con limiti di utilizzo generosi. Durante i picchi di traffico potrebbero esserci delle limitazioni, ma è comunque un’opportunità per provare uno strumento che prima era riservato ai piani più costosi. Gli utenti Pro e Teams hanno accesso completo, mentre per gli utenti Enterprise dovranno aspettare ancora un po’ (ma non troppo).
Agenti vocali più intelligenti e flessibili
Il secondo grande aggiornamento riguarda gli agenti vocali. OpenAI ha rilasciato un SDK in TypeScript che include supporto per handoff, guardrail, tracciamento e altre funzionalità fondamentali per creare assistenti vocali professionali. La novità più interessante è il supporto per approvazioni “human-in-the-loop”. In pratica, si può programmare l’agente affinché si fermi e chieda conferma prima di eseguire azioni importanti. L’agente si ferma, salva il suo stato, aspetta che l’utente approvi o meno, e poi riprende da dove aveva lasciato.
OpenAI ha migliorato anche il suo modello speech-to-speech. Ora è più affidabile nel seguire le istruzioni vocali dell’utente, risponde in modo più coerente quando deve usare strumenti come il calendario o il browser. Si comporta meglio anche in situazioni conversazionali complesse, ad esempio quando viene interrotto a metà frase o deve riprendere il filo del discorso.
Una funzione pratica è la possibilità di controllare la velocità di pronuncia durante ogni sessione. Se il l’agente vocale deve parlare con persone diverse, si può regolare il ritmo in base alle necessità.
Per chi sviluppa agenti vocali, la dashboard Traces ora supporta anche le sessioni Realtime API. È possibile visualizzare facilmente come funzionano gli agenti vocali, inclusi input e output audio, chiamate agli strumenti e interruzioni. In questo modo, è più facile capire cosa sta succedendo quando un agente vocale non si comporta come dovrebbe.
I miglioramenti tecnici
Oltre alle novità principali, OpenAI ha sistemato diversi dettagli che gli sviluppatori apprezzeranno. Il supporto per file binari è migliorato, i messaggi di errore per gli script di setup sono più chiari, e i limiti sui file sono aumentati da 1 MB a 5 MB. Ha anche prolungato il tempo massimo per gli script di setup da 5 a 10 minuti, sistemato il flusso di connessione con GitHub e rimosso l’obbligo di autenticazione a due fattori per chi usa SSO o login social.