Ora gli sviluppatori possono generare immagini direttamente con Flash Gemini 2.0 di Google. L’annuncio è apparso sul blog di Big G qualche giorno fa – una novità che molti aspettavano da tempo. La cosa interessante? Per testarla basta accedere a Google AI Studio o all’API Gemini, ovunque ti trovi (purché sia in una dei Paesi supportati, ovviamente).
Non serve essere esperti di programmazione: l’integrazione richiede pochissimo codice. Per chi vuole sperimentare subito, Google ha messo a disposizione una versione di prova – l’hanno chiamata “gemini-2.0-flash-exp“.
Su Gemini 2.0 Flash arriva la generazione di immagini nativa
Ciò che distingue il generatore di immagini di Gemini 2.o Flash è la sua natura multimodale. Il modello, infatti, combina la comprensione del testo, il ragionamento avanzato e l’elaborazione multimodale degli input per generare immagini più accurate rispetto ai modelli tradizionali di generazione di immagini.
Google è piuttosto entusiasta del fatto che si possono creare storie visive dove tutto ha senso: i personaggi restano riconoscibili e l’ambientazione non cambia improvvisamente tra un’immagine e l’altra. Inoltre, consente di modificare le immagini passo passo, mantenendo il contesto nel corso della conversazione.
Gemini riesce a creare immagini che sembrano reali perché ha assorbito un sacco di informazioni sul mondo reale. Certo, come ammette anche Google, questa conoscenza, pur essendo vasta, non è assoluta. Dove però sembra davvero brillare è quando deve inserire scritte nelle immagini. Secondo i benchmark interni, sarebbe anche superiore rispetto ai principali modelli concorrenti.
GPT-4o multimodale, a quando?
Anche GPT-4o diventerà multimodale o meglio, è già un modello multimodale, ma la generazione di immagini è ancora affidata a DALL·E. OpenAI ha già dato un assaggio di cosa bolle in pentola quando ha mostrato il suo GPT-4o lo scorso maggio. Funziona un po’ come Gemini: può capire testo, audio, immagini e video, e sa rispondere in vari modi – scrivendo, parlando o creando immagini.
Durante la presentazione ha fatto vedere un sacco di cose interessanti: storie illustrate, personaggi disegnati nei minimi dettagli, testi con font creativi e persino rendering 3D che sembravano quasi reali. Peccato che per ora siano solo dimostrazioni! Secondo i rumors, OpenAI potrebbe rilasciare queste funzioni verso marzo dell’anno prossimo – e dopo l’annuncio di Google, scommettiamo che accelereranno i tempi…