Google ha annunciato il nuovo modello Gemma 4 12B che può essere eseguito su un notebook con 16 GB di RAM. È rilasciato con licenza Apache 2.0 e può essere scaricato da Hugging Face o Kaggle. È un modello multimodale, ma l’azienda di Mountain View ha utilizzato una nuova architettura che elimina gli encoder per immagini e audio. Gli utenti possono eseguire il modello su un Mac con l’app Google AI Edge Gallery.
Gemma 4 12B per lo sviluppo AI locale
Google scrive che i modelli Gemma 4 hanno superato i 4 milioni di download, grazie soprattutto agli sviluppatori. Il nuovo arrivato della famiglia è Gemma 4 12B. Il suffisso 12B indica ovviamente il numero di parametri (12 miliardi). È quindi un modello AI multimodale di medie dimensioni. Oltre al testo supporta input con immagini e audio. Offre inoltre capacità di ragionamento e agentiche. Come detto può essere eseguito su un notebook con 16 GB di RAM.
Rispetto a simili modelli, Google ha ridotto la latenza (maggiore velocità di risposta) utilizzando una nuova architettura. Solitamente gli input multimodali (immagini e audio in questo caso) hanno encoder separati che elaborano gli input prima di passare i dati al LLM (Large Language Model).
L’azienda di Mountain View ha sostituito l’encoder delle immagini con un semplice embedder, mentre quello per l’audio è stato completamente eliminato. Nell’immagine seguente si vede la differenza tra l’architettura tradizionale e quella di Gemma 4 12B:
Gli sviluppatori possono usare il modello in LM Studio, Ollama e l’app Google AI Edge Gallery. Quest’ultima, finora disponibile solo per Android e iOS, è arrivata anche su macOS. Gli utenti possono quindi sfruttare Gemma 4 12B sui Mac con chip Apple. Per l’input vocale è invece disponibile la nuova app Google AI Edge Eloquent.
