Google ha annunciato Gemma 3, la nuova famiglia di modelli open che possono essere eseguiti direttamente sui dispositivi (smartphone, notebook e workstation). Sono multimodali e supportano 35 lingue. L’azienda di Mountain View afferma che le prestazioni sono superiori su singola GPU o TPU a quelle dei modelli di Meta, OpenAI e DeepSeek.
Caratteristiche e prestazioni
I primi due modelli Gemma erano stati svelati a febbraio e maggio 2024. Gemma 3 offre ulteriori miglioramenti sfruttando le stesse tecnologie alla base dei modelli Gemini 2.0. Sono disponibili in quattro varianti (1B, 4B, 12B e 27B), ovvero con 1, 4, 12 e 27 miliardi di parametri.
Gli sviluppatori possono già usarli per creare applicazioni AI in 35 lingue, ma è disponibile il supporto pretrained per oltre 140 lingue. Le varianti 4B, 12B e 27B sono multimodali, quindi possono essere sfruttati per analizzare immagini e brevi video in input, oltre al testo. La context window è ampia 128k token, per cui possono elaborare e comprendere molte informazioni.
La famiglia Gemma 3 offre inoltre capacità di function calling e structured output per l’automazione delle attività e l’esperienza agentica (compiti eseguiti per conto dell’utente). Google afferma che la variante 27B è la migliore in termini di prestazioni su singola GPU o TPU, superando Llama-405B di Meta, V3 di DeepSeek e o3-mini di OpenAI nel benchmark Elo Score di Chatbot Arena.
I modelli Gemma 3 sono accessibili immediatamente tramite Google AI Studio o Google GenAI SDK. Possono essere scaricati da Hugging Face, Ollama o Kaggle e modificati secondo le proprie necessità. Per progetti più complessi si può usare Google AI Vertex.
L’azienda di Mountain View ha annunciato anche ShieldGamma 2, un modello basato su Gamma 3 con 4 miliardi di parametri che può essere sfruttato come content classifier. Analizza testo e immagini in input e output, consentendo di identificare contenuti pericolosi, violenti e sessualmente espliciti.