Chameleon: la nuova famiglia di modelli AI multimodali di Meta

Chameleon, la nuova famiglia di modelli AI di Meta

Meta ha presentato Chameleon, la nuova famiglia di modelli AI nativamente multimodali in grado di gestire sia testo che immagini.
Chameleon, la nuova famiglia di modelli AI di Meta
Meta ha presentato Chameleon, la nuova famiglia di modelli AI nativamente multimodali in grado di gestire sia testo che immagini.

Meta ha appena svelato un’anteprima di Chameleon, la sua nuova famiglia di modelli AI progettata per essere nativamente multimodale. Questa mossa strategica è la risposta di Meta alla crescente competizione nel campo dell’AI generativa, e in particolare ai modelli rilasciati dai suoi rivali, OpenAI in primis.

Un approccio innovativo alla multimodalità

A differenza dell’approccio comune di addestrare un modello separato per ogni modalità e poi mettere insieme i risultati usando aggregatori, noto come “late fusion”, Chameleon adotta un’architettura “early-fusion token-based mixed-modal”. Questo significa che il modello è stato progettato da zero per apprendere da una miscela unia di immagini, testo, codice e altre modalità.

Chameleon trasforma le immagini in token specifici, proprio come i modelli linguistici fanno con le parole, utilizzando un vocabolario unificato di token di testo, codice e immagine. Questa caratteristica consente di applicare la stessa architettura di trasformazione a sequenze contenenti sia token di immagine che di testo, consentendo al modello di ragionare e generare sequenze di immagini e testi senza la necessità di componenti specifici per ogni modalità.

Secondo i ricercatori, il modello più simile a Chameleon è Google Gemini, che utilizza anch’esso un approccio early-fusion token.

Superare le sfide dell’addestramento e della scalabilità

Sebbene l’architettura early-fusion token-based mixed-modal presenti notevoli vantaggi, pone anche sfide significative durante l’addestramento e la scalabilità del modello. Per affrontare queste problematiche, i ricercatori di Meta hanno implementato una serie di modifiche architettoniche e tecniche di addestramento innovative.

L’addestramento di Chameleon avviene in due fasi, utilizzando un set di dati contenente 4,4 trilioni di token di testo, coppie immagine-testo e sequenze di testo e immagini collegate. Le versioni da 7 miliardi e 34 miliardi di parametri sono state addestrate su oltre 5 milioni di ore di GPU Nvidia A100 80GB.

Gli esperimenti condotti dimostrano che Chameleon raggiunge prestazioni allo stato dell’arte in vari compiti, tra cui la risposta a domande visive (VQA) e la didascalia delle immagini, superando modelli come Flamingo, IDEFICS e Llava-1.5. Inoltre, Chameleon rimane competitivo nei benchmark di solo testo, eguagliando modelli come Mixtral 8x7B e Gemini-Pro.

Verso un futuro multimodale aperto

Con il rilascio di nuovi modelli multimodali da parte di OpenAI e Google, Meta potrebbe distinguersi offrendo un’alternativa aperta ai modelli privati. Inoltre, l’approccio early-fusion token-based mixed-modal di Chameleon potrebbe ispirare nuove direzioni di ricerca su modelli più avanzati, in particolare con l’integrazione di ulteriori modalità.

I ricercatori di Meta sottolineano che “Chameleon rappresenta un passo significativo verso la realizzazione della visione di modelli di base unificati in grado di ragionare e generare contenuti multimodali in modo flessibile“.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
22 mag 2024
Link copiato negli appunti