Google ha annunciato la disponibilità delle versione finale di Gemma 3n. Il modello open source, rilasciato in anteprima a fine maggio, può essere eseguito localmente sui dispositivi grazie alle sue ridotte dimensioni. È quindi un diretto concorrente dei modelli Phi-4 di Microsoft.

Capacità avanzate di Google Gemma 3n

Gemma 3n potrebbe essere definita la versione open source di Gemini Nano, in quanto condivide la stessa architettura di base. Il modello deriva da Gemma 3, ma ha dimensioni inferiori, quindi può essere eseguito direttamente su smartphone, tablet e notebook.

Gemma 3n viene offerto in due versioni: E2B e E4B (E è l’iniziale di Effective). Il numero reale di parametri è 5 e 8 miliardi, rispettivamente. Google DeepMind ha tuttavia sviluppato la tecnologia Per-Layer Embeddings (PLE) che riduce drasticamente l’uso di RAM, quindi i modelli sono comparabili a modelli con 2 e 4 miliardi di parametri, da cui i nomi E2B e E4B.

Gemma 3n è multimodale. Oltre al testo può comprendere ed elaborare immagini, audio e video. Grazie ai miglioramenti implementati dall’azienda di Mountain View supporta 140 lingue per il testo e 35 lingue per i contenuti multimediali. Tra le funzionalità ci sono la trascrizione dell’audio e la traduzione in tempo reale. Offre inoltre ottime capacità in matematica, programmazione e ragionamento.

La versione E4B di Gemma 3n è il primo modello con meno di 10 miliardi di parametri a superare un punteggio di 1.300 nel benchmark Elo di LMArena. Gemma 3n è disponibile tramite Google AI Studio e altri tool di sviluppo. Può essere scaricato tramite Kaggle e Hugging Face.