Gemini 2.0 Flash integra il generatore di immagini AI

Ora gli sviluppatori possono generare immagini direttamente con Flash Gemini 2.0 di Google. L’annuncio è apparso sul blog di Big G qualche giorno fa – una novità che molti aspettavano da tempo. La cosa interessante? Per testarla basta accedere a Google AI Studio o all’API Gemini, ovunque ti trovi (purché sia in una dei Paesi supportati, ovviamente).

Non serve essere esperti di programmazione: l’integrazione richiede pochissimo codice. Per chi vuole sperimentare subito, Google ha messo a disposizione una versione di prova – l’hanno chiamata “gemini-2.0-flash-exp“.

Su Gemini 2.0 Flash arriva la generazione di immagini nativa

Ciò che distingue il generatore di immagini di Gemini 2.o Flash è la sua natura multimodale. Il modello, infatti, combina la comprensione del testo, il ragionamento avanzato e l’elaborazione multimodale degli input per generare immagini più accurate rispetto ai modelli tradizionali di generazione di immagini.

Google è piuttosto entusiasta del fatto che si possono creare storie visive dove tutto ha senso: i personaggi restano riconoscibili e l’ambientazione non cambia improvvisamente tra un’immagine e l’altra. Inoltre, consente di modificare le immagini passo passo, mantenendo il contesto nel corso della conversazione.

Gemini riesce a creare immagini che sembrano reali perché ha assorbito un sacco di informazioni sul mondo reale. Certo, come ammette anche Google, questa conoscenza, pur essendo vasta, non è assoluta. Dove però sembra davvero brillare è quando deve inserire scritte nelle immagini. Secondo i benchmark interni, sarebbe anche superiore rispetto ai principali modelli concorrenti.

GPT-4o multimodale, a quando?

Anche GPT-4o diventerà multimodale o meglio, è già un modello multimodale, ma la generazione di immagini è ancora affidata a DALL·E. OpenAI ha già dato un assaggio di cosa bolle in pentola quando ha mostrato il suo GPT-4o lo scorso maggio. Funziona un po’ come Gemini: può capire testo, audio, immagini e video, e sa rispondere in vari modi – scrivendo, parlando o creando immagini.

Durante la presentazione ha fatto vedere un sacco di cose interessanti: storie illustrate, personaggi disegnati nei minimi dettagli, testi con font creativi e persino rendering 3D che sembravano quasi reali. Peccato che per ora siano solo dimostrazioni! Secondo i rumors, OpenAI potrebbe rilasciare queste funzioni verso marzo dell’anno prossimo – e dopo l’annuncio di Google, scommettiamo che accelereranno i tempi…

Annulla

Stai citando questo messaggio:

NaN undefined

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech