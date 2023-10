Alla fine di settembre 2023, OpenAI ha introdotto due importanti novità in ChatGPT. La prima è la possibilità di comunicare verbalmente con il chatbot, che ora dispone di una propria voce sintetica. La seconda è la capacità di riconoscere e descrivere le immagini. Questa funzione, già presente in Google Bard, rende il chatbot molto più utile e versatile.

GPT-4 Vision, cos’è e a cosa serve

La multimodalità di GPT-4 era il principale punto di forza di OpenAI quando il modello è stato lanciato a marzo 2023. Tuttavia, l’azienda aveva deciso di attendere prima di rilasciare GPT-4V (GPT-4 Vision), la versione che integra l’elaborazione del linguaggio naturale e la computer vision, per evitare i potenziali problemi di privacy legati al riconoscimento facciale. Dopo aver effettuato numerosi test e implementato misure di sicurezza, OpenAI ha annunciato a settembre che questo nuovo modello era finalmente pronto!

Grazie a questa nuova funzionalità di ChatGPT, è sufficiente caricare un’immagine per consentire all’IA di rispondere a domande o quesiti su di essa. Le potenziali applicazioni di GPT-4 Vision sono numerose, come ha dimostrato il cofondatore di OpenAI Greg Brockman, che in un video ha presentato diversi possibili casi d’uso.

GPT-4 Vision is much better at interior design than I am: https://t.co/ZUTCr2I6Kq — Greg Brockman (@gdb) October 2, 2023

In particolare, lo strumento è in grado di identificare qualsiasi elemento in un’immagine, sia esso una pianta, un animale, un personaggio di fantasia o qualsiasi altro oggetto. Inoltre, l’intelligenza artificiale è in grado di generare una descrizione dettagliata.

Un esempio di utilizzo di GPT-4V è quello di identificare i monumenti che si vedono in una nuova città o paese, caricando una foto e chiedendo all’intelligenza artificiale di descriverli. In teoria, si potrebbe fare lo stesso con la foto di una persona, ma questo sarebbe una violazione della privacy. Per questo motivo, OpenAI ha impostato GPT-4V per rifiutare questo tipo di richieste.

Un’altra possibilità è quella di estrarre il testo da un’immagine o di tradurlo. Ciò potrebbe rivelarsi molto utile per tradurre testi in lingue antiche su immagini di vecchi libri o per tradurre istantaneamente dei fumetti. GPT-4 V è anche in grado di leggere grafici e diagrammi in qualsiasi formato e trarre le proprie conclusioni. Potrebbe quindi diventare il miglior alleato degli analisti di dati.

Sebbene ChatGPT avesse già il suo Code Interpreter per la programmazione informatica, GPT-4V fa un ulteriore passo avanti, convertendo una semplice immagine in un software o in un sito web. Allo stesso modo, il chatbot è ora in grado di identificare diversi tipi di progettazione architettonica e di suggerire modifiche in base alle istruzioni personalizzate fornite dall’utente.

Quali sono i limiti di GPT-4 Vision?

OpenAI ha posto dei paletti per limitare le capacità di GPT-4 Vision. Ad esempio, l’IA non è in grado di identificare gli esseri umani. Le richieste saranno respinte nel 98% dei casi. Di fronte alla foto di una persona (anche famosa), infatti, il chatbot dirà che è “programmato per dare priorità alla riservatezza e alla sicurezza degli utenti“.

Allo stesso modo, se gli si presentano immagini pornografiche, ChatGPT si limiterà a descrivere gli elementi “soft”, non espliciti, come i tatuaggi. Come nel caso delle barriere poste da ChatGPT per le richieste di testo, si teme che gli hacker possano essere in grado di “jailbreakare” GPT-4 Vision per aggirare questi limiti etici. Le conseguenze potrebbero essere catastrofiche, soprattutto per la riservatezza.

Data di lancio di GPT-4 Vision

La nuova versione di ChatGPT in grado di analizzare le immagini sarà distribuita entro la fine del 2023, ma non si sa ancora quando. Come al solito, gli utenti della versione a pagamento ChatGPT Plus dovrebbero essere i primi a beneficiarne.