Mistral ha appena lanciato Mistral OCR, un’API in grado di trasformare qualsiasi documento PDF in un file di testo pronto per essere “digerito” dai modelli AI come ChatGPT.
Mistral: API per convertire PDF in Markdown
Il segreto del successo di Mistral OCR sta nella sua natura multimodale. Non si limita a estrarre il testo dal PDF, ma sa riconoscere anche illustrazioni e foto, incasellandole in apposite “bounding box”. Il risultato? Un file Markdown ordinato e ben formattato, con tutti gli elementi al posto giusto.
Ma perché scegliere proprio il Markdown come formato di output? Semplice: è il linguaggio che gli LLM adorano. Questi modelli linguistici vengono addestrati su dataset in Markdown e quando generano risposte, spesso usano questo formato per creare elenchi puntati, aggiungere link o evidenziare parole in grassetto. Insomma, il Markdown è diventato il nuovo oro per chi lavora con l’intelligenza artificiale generativa.
Mistral OCR batte la concorrenza (anche in lingue diverse dall’inglese)
Secondo i test condotti da Mistral, la sua API OCR supera quelle di colossi come Google, Microsoft e OpenAI, soprattutto quando si tratta di documenti complessi con espressioni matematiche (in formato LaTeX), layout avanzati o tabelle. E non è tutto: Mistral OCR se la cava egregiamente anche con le lingue diverse dall’inglese.
Concentrandosi esclusivamente sull’OCR, Mistral ha potuto ottimizzare la sua API per offrire prestazioni fulminee. Non c’è da stupirsi, quindi, se batte modelli multimodali come GPT-4o, che oltre all’OCR devono occuparsi di mille altre cose. Mistral OCR fa una cosa sola, ma la fa come Dio comanda.
Anche Le Chat, l’assistente AI di Mistral, sfrutta la potenza di Mistral OCR. Quando un utente carica un file PDF, Le Chat usa l’API OCR in background per estrarre il testo e comprenderlo prima di elaborare una risposta. Un esempio perfetto di come questa tecnologia possa integrarsi nei flussi di lavoro dell’intelligenza artificiale.
Un alleato prezioso per i sistemi RAG
Mistral OCR si rivelerà sicuramente un’arma preziosa per le aziende e gli sviluppatori che usano sistemi RAG (Retrieval-Augmented Generation) per alimentare i loro LLM con documenti multimodali. Le potenziali applicazioni sono infinite. Ad esempio, gli studi legali possono analizzare montagne di documenti in un batter d’occhio o i ricercatori possono estrarre dati da articoli scientifici complessi.