Gemini 2.0 Flash integra il generatore di immagini AI

Gemini 2.0 Flash integra il generatore di immagini AI

Google ha integrato la generazione di immagini in Gemini 2.0 Flash, per produrre immagini in linea con il prompt di testo.
Gemini 2.0 Flash integra il generatore di immagini AI
Google ha integrato la generazione di immagini in Gemini 2.0 Flash, per produrre immagini in linea con il prompt di testo.

Ora gli sviluppatori possono generare immagini direttamente con Flash Gemini 2.0 di Google. L’annuncio è apparso sul blog di Big G qualche giorno fa – una novità che molti aspettavano da tempo. La cosa interessante? Per testarla basta accedere a Google AI Studio o all’API Gemini, ovunque ti trovi (purché sia in una dei Paesi supportati, ovviamente).

Non serve essere esperti di programmazione: l’integrazione richiede pochissimo codice. Per chi vuole sperimentare subito, Google ha messo a disposizione una versione di prova – l’hanno chiamata “gemini-2.0-flash-exp“.

Su Gemini 2.0 Flash arriva la generazione di immagini nativa

Ciò che distingue il generatore di immagini di Gemini 2.o Flash è la sua natura multimodale. Il modello, infatti, combina la comprensione del testo, il ragionamento avanzato e l’elaborazione multimodale degli input per generare immagini più accurate rispetto ai modelli tradizionali di generazione di immagini.

Google è piuttosto entusiasta del fatto che si possono creare storie visive dove tutto ha senso: i personaggi restano riconoscibili e l’ambientazione non cambia improvvisamente tra un’immagine e l’altra. Inoltre, consente di modificare le immagini passo passo, mantenendo il contesto nel corso della conversazione.

Gemini riesce a creare immagini che sembrano reali perché ha assorbito un sacco di informazioni sul mondo reale. Certo, come ammette anche Google, questa conoscenza, pur essendo vasta, non è assoluta. Dove però sembra davvero brillare è quando deve inserire scritte nelle immagini. Secondo i benchmark interni, sarebbe anche superiore rispetto ai principali modelli concorrenti.

GPT-4o multimodale, a quando?

Anche GPT-4o diventerà multimodale o meglio, è già un modello multimodale, ma la generazione di immagini è ancora affidata a DALL·E. OpenAI ha già dato un assaggio di cosa bolle in pentola quando ha mostrato il suo GPT-4o lo scorso maggio. Funziona un po’ come Gemini: può capire testo, audio, immagini e video, e sa rispondere in vari modi – scrivendo, parlando o creando immagini.

Durante la presentazione ha fatto vedere un sacco di cose interessanti: storie illustrate, personaggi disegnati nei minimi dettagli, testi con font creativi e persino rendering 3D che sembravano quasi reali. Peccato che per ora siano solo dimostrazioni! Secondo i rumors, OpenAI potrebbe rilasciare queste funzioni verso marzo dell’anno prossimo – e dopo l’annuncio di Google, scommettiamo che accelereranno i tempi…

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
13 mar 2025
Link copiato negli appunti