Idefics2: Il nuovo modello multimodale di Hugging Face

Hugging Face ha presentato Idefics2, la nuova versione open source del suo modello multimodale in grado di rispondere a richieste di testo e immagini, originariamente sviluppato da DeepMind. Idefics2 è dotato di parametri più snelli, una licenza aperta e capacità di riconoscimento ottico dei caratteri (OCR) migliorate rispetto alla prima release.

Nonostante le dimensioni ridotte rispetto al suo predecessore – 8 miliardi di parametri contro gli 80 miliardi di Idefics1 – Idefics2 non scende a compromessi in termini di prestazioni. Con una potenza paragonabile a modelli come DeepSeek-VL e LLaVA-NeXT-Mistral-7B, questo modello dimostra che la grandezza non è tutto quando si tratta di intelligenza artificiale.

Immagini ad alta risoluzione e rapporti di aspetto flessibili

Una delle caratteristiche più impressionanti di Idefics2 è la sua capacità di gestire immagini ad alta risoluzione, fino a 980 x 980 pixel, con rapporti di aspetto nativi. Questo rappresenta un significativo passo avanti rispetto ai tradizionali approcci di computer vision, che spesso richiedono il ridimensionamento delle immagini per adattarsi a un rapporto quadrato fisso. Con Idefics2, le immagini possono essere elaborate nella loro forma originale, aprendo nuove possibilità per l’analisi e la modifica.

OCR avanzato e comprensione di grafici e documenti

Oltre alle capacità di elaborazione delle immagini, Idefics2 brilla anche nell’OCR. Grazie all’integrazione dei dati generati dalla trascrizione del testo in immagini e documenti, questo modello è in grado di estrarre informazioni testuali con maggiore precisione e affidabilità.

Ma le sorprese non finiscono qui. Il team di Hugging Face ha anche potenziato la capacità di Idefics2 di comprendere e rispondere a domande su grafici, figure e documenti. Questa abilità apre la strada a nuove applicazioni nell’analisi dei dati e nella gestione dei documenti. Anche l’architettura del modello è stata semplificata.

Addestramento avanzato con dati diversificati

Per sfruttare appieno il potenziale di Idefics2, Hugging Face ha utilizzato una vasta gamma di set di dati per l’addestramento, tra cui Mistral-7B-v0.1, siglip-so400m-patch14-384, documenti web, coppie di didascalie di immagini, dati OCR, testo renderizzato e dati image-to-code. Questa diversità di input consente a Idefics2 di affrontare una vasta gamma di attività e campi.

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech