Chameleon: la nuova famiglia di modelli AI multimodali di Meta

Meta ha appena svelato un’anteprima di Chameleon, la sua nuova famiglia di modelli AI progettata per essere nativamente multimodale. Questa mossa strategica è la risposta di Meta alla crescente competizione nel campo dell’AI generativa, e in particolare ai modelli rilasciati dai suoi rivali, OpenAI in primis.

Un approccio innovativo alla multimodalità

A differenza dell’approccio comune di addestrare un modello separato per ogni modalità e poi mettere insieme i risultati usando aggregatori, noto come “late fusion”, Chameleon adotta un’architettura “early-fusion token-based mixed-modal”. Questo significa che il modello è stato progettato da zero per apprendere da una miscela unia di immagini, testo, codice e altre modalità.

Chameleon trasforma le immagini in token specifici, proprio come i modelli linguistici fanno con le parole, utilizzando un vocabolario unificato di token di testo, codice e immagine. Questa caratteristica consente di applicare la stessa architettura di trasformazione a sequenze contenenti sia token di immagine che di testo, consentendo al modello di ragionare e generare sequenze di immagini e testi senza la necessità di componenti specifici per ogni modalità.

Secondo i ricercatori, il modello più simile a Chameleon è Google Gemini, che utilizza anch’esso un approccio early-fusion token.

Superare le sfide dell’addestramento e della scalabilità

Sebbene l’architettura early-fusion token-based mixed-modal presenti notevoli vantaggi, pone anche sfide significative durante l’addestramento e la scalabilità del modello. Per affrontare queste problematiche, i ricercatori di Meta hanno implementato una serie di modifiche architettoniche e tecniche di addestramento innovative.

L’addestramento di Chameleon avviene in due fasi, utilizzando un set di dati contenente 4,4 trilioni di token di testo, coppie immagine-testo e sequenze di testo e immagini collegate. Le versioni da 7 miliardi e 34 miliardi di parametri sono state addestrate su oltre 5 milioni di ore di GPU Nvidia A100 80GB.

Gli esperimenti condotti dimostrano che Chameleon raggiunge prestazioni allo stato dell’arte in vari compiti, tra cui la risposta a domande visive (VQA) e la didascalia delle immagini, superando modelli come Flamingo, IDEFICS e Llava-1.5. Inoltre, Chameleon rimane competitivo nei benchmark di solo testo, eguagliando modelli come Mixtral 8x7B e Gemini-Pro.

Verso un futuro multimodale aperto

Con il rilascio di nuovi modelli multimodali da parte di OpenAI e Google, Meta potrebbe distinguersi offrendo un’alternativa aperta ai modelli privati. Inoltre, l’approccio early-fusion token-based mixed-modal di Chameleon potrebbe ispirare nuove direzioni di ricerca su modelli più avanzati, in particolare con l’integrazione di ulteriori modalità.

I ricercatori di Meta sottolineano che “Chameleon rappresenta un passo significativo verso la realizzazione della visione di modelli di base unificati in grado di ragionare e generare contenuti multimodali in modo flessibile“.

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech