Gemini le potenzialità dell'AI multimodale di Google

Gemini le potenzialità dell'AI multimodale di Google

Con Gemini 1.0 e sue tre varianti Google vuole rivoluzionare in mondo AI con la prima intelligenza artificiale multimodale.
Gemini le potenzialità dell'AI multimodale di Google
Con Gemini 1.0 e sue tre varianti Google vuole rivoluzionare in mondo AI con la prima intelligenza artificiale multimodale.

L’intelligenza artificiale, con la sua rapida evoluzione, ha modificato le abitudini quotidiane di tutti. Tra vari strumenti e piattaforme, l’ascesa è stata rapida e la gamma di opzioni è vasta. E anche Google, dopo il lancio di Bard, non ha lasciato nulla al caso nello sviluppo di modelli e piattaforme basate sull’intelligenza artificiale. A dicembre 2023 con il grande debutto negli USA di Gemini 1.0, non si parla più di un chatbot, ma della prima intelligenza artificiale multimodale sviluppata dai laboratori di ricerca sull’AI di Google DeepMind e Google Research. Nell’effettivo, Google ha presentato Gemini in tre diversi modelli partendo da Gemini Pro, con 100 miliardi di parametri, presente gratuitamente su Bard e accessibile in 170 paesi. In Italia, disponibile per i programmatori e le aziende italiane da dicembre 2023. Per gli utenti, è invece necessario procedere accedendo tramite VPN per testare il nuovo modello Google su Bard. Gemini Nano, con 10 miliardi di parametri, presente sui dispositivi mobili come Pixel 8 Pro. Infine, Gemini Ultra, la versione principale e il futuro cervello operativo di Bard Advanced, la versione a pagamento di Bard. Il modello di punta di Gemini, con 1,6 trilioni di parametri, mira a superare le qualità e le funzionalità della versione standard, pronta a sfidare il modello GPT-4. Google ha come obiettivo finale quello di trasformare Gemini nel motore di ricerca universale.

Gemini la rivoluzione AI di Google

Google è determinata a lasciare un segno duraturo e si prepara a portare avanti la sua rivoluzione nel campo dell’intelligenza artificiale. I modelli Gemini Ultra, Gemini Pro e Gemini Nano sono tutti addestrati per essere “nativamente multimodali”, ovvero con la capacità di lavorare e comprendere oltre il semplice testo scritto. Non si tratta più solo di prompt di testo, ma i modelli Gemini sono stati pre-addestrati su una varietà di audio, immagini e video, un ampio set di basi di codice e testo in diverse lingue.

Gemini la rivoluzione AI di Google

L’addestramento, non solo su tratti di testo, conferisce loro la potenza di comprendere sfumature e sfaccettature ancora non comprensibili alle altre intelligenze artificiali, o almeno non nel completo dettaglio. Tuttavia, questa nuova entrata nel campo dell’intelligenza artificiale con Gemini, lascia un po’ di confusione tra gli utenti, in quanto non sempre è comprensibile, soprattutto a causa della confusione di Google, che Gemini è una realtà distinta da Bard. Infatti, Bard è il mezzo attraverso il quale è possibile testare Gemini, per ora Gemini Pro, dato che Google ha integrato il nuovo modello AI. Più semplicemente, Bard corrisponde a ChatGPT e Gemini corrisponde al modello linguistico che lo alimenta.

Gemini: il quadro generale delle potenzialità

Dopo aver compreso la natura di Gemini e aver intravisto il suo futuro, è fondamentale capire quali sono i suoi compiti e cosa i modelli Gemini sono in grado di fare. Proprio perché si tratta di un modello di intelligenza artificiale multimodale, le sue azioni possono essere molteplici. Inoltre, Google promette funzionalità in continua evoluzione e la possibilità di un ampliamento delle azioni da parte di Gemini. Per comprendere meglio, si può pensare alla trascrizione del parlato, alla didascalia di immagini e video, alla generazione di opere d’arte. L’unico punto dolente è che, per ora, Gemini si presenta agli utenti in una forma piuttosto limitata e ciò che sarà in grado di fare viene supposto dalle affermazioni di Google. Resta da vedere quali saranno le diversità e le capacità dei diversi modelli di Gemini.

I tre modelli AI di Google

In ogni caso è possibile entrare nel vivo di quelli che sono i tre modelli di Gemini. Gemini Ultra è il modello di punta dell’intelligenza artificiale di Google, che non è ancora ufficialmente disponibile. Il lancio di Gemini Ultra è previsto non prima della fine dell’anno e tutte le informazioni attualmente disponibili provengono da demo guidate da Google. Senza dubbio, il suo avanzamento mira a essere utilizzato per una vasta gamma di compiti, anche quelli più complessi, per essere un’intelligenza artificiale rivoluzionaria nelle risposte agli input di chi la utilizzerà.

Gemini e la sua accessibilità

Si parla infatti della possibilità di sfruttare l’AI Gemini anche nei compiti di fisica, identificare articoli scientifici rilevanti, estrarre informazioni, creare grafici e generare formule necessarie per ricreare il grafico con dati più recenti. Inoltre, c’è il supporto e la capacità di generazione di immagini, anche se questa funzionalità non entrerà nella versione prodotta del modello al momento del lancio.

Gemini Pro è attualmente disponibile al pubblico, non in Italia, ma le sue capacità variano a seconda di dove viene utilizzato e messo alla prova. Alcuni piccoli miglioramenti lo rendono superiore alla versione GPT-3.5 di OpenAI, come ad esempio la gestione di una comunicazione più lunga e un ragionamento più complesso. Tuttavia, ci sono problemi significativi per quanto riguarda la parte matematica. Gli utenti hanno infatti dichiarato di aver riscontrato problemi di ragionamento e notevoli errori. È presente anche Gemini Pro Vision, la versione che può gestire testo e immagini, inclusi foto e video.

Gemini Nano, una versione molto più ridotta rispetto agli altri modelli, alimenta alcune funzionalità su specifici dispositivi mobili, nello specifico il Pixel 8 Pro. Più nel dettaglio, è possibile sfruttare Gemini Nano nell’app registratore, in quanto consente agli utenti di registrare e trascrivere l’audio, includendo anche la possibilità di un riepilogo basato su Gemini. Presente anche in Gboard, l’app per tastiera di Google, come anteprima per sviluppatori.

Gemini il paragone con GPT-4

La questione principale, più diffusa tra le intelligenze artificiali recenti, è se il nuovo modello AI di Google, Gemini, sia superiore a GPT-4 di OpenAI. La risposta sembra essere positiva, considerando le capacità avanzate, future, di Gemini Ultra. Tuttavia, Google non rilascerà Ultra fino alla fine dell’anno. Ma la competizione è già iniziata con Gemini Pro, Google afferma essere più capace nella generazione di contenuti, nel brainstorming e nella scrittura rispetto a GPT-3.5.

Tuttavia, nella realtà pratica, gli utenti e coloro che testano l’evoluzione di queste intelligenze artificiali hanno riscontrato alcuni problemi con Gemini Pro. Il modello, infatti, tende a fraintendere alcuni fatti e presenta problemi con la traduzione e suggerimenti di codifica scarsi. I punteggi indicati da Google sembrano essere solo marginalmente migliori rispetto ai corrispondenti modelli di OpenAI. Sicuramente, il tempo fornirà risposte definitive agli utenti e ai professionisti del settore riguardo alle reali capacità dei modelli Gemini e alla rivoluzione dell’intelligenza artificiale di Google.

Gemini e la sua accessibilità

Infine, un altro aspetto importante è sicuramente l’accessibilità dei vari modelli Gemini. Prima di tutto, è importante comprendere che per sperimentare Gemini Pro è possibile utilizzare Bard. In alternativa, è accessibile in anteprima in Vertex AI tramite un’API. Tuttavia, al termine dell’anteprima in Vertex, il modello avrà un costo per carattere. In altri contesti, Gemini Pro può essere trovato in AI Studio e anche su Duet AI for Developers, la suite di strumenti di assistenza basati sull’intelligenza artificiale di Google per il completamento e la generazione di codice, che inizierà a utilizzare un modello Gemini nelle prossime settimane.

Per quanto riguarda il modello Gemini Nano, è attualmente disponibile sul Pixel 8 Pro e sembra che in futuro arriverà anche su altri dispositivi. Anche se in Italia l’attesa rimane invariata, per testare il nuovo modello multimodale è necessario accedere tramite una VPN.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
10 gen 2024
Link copiato negli appunti