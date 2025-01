Non solo DeepSeek sta facendo scintille nel mondo dell’AI. Anche Alibaba, il colosso cinese dell’e-commerce, ha annunciato una nuova famiglia di modelli di intelligenza artificiale: i Qwen2.5-VL.

I nuovi modelli AI di Alibaba sanno fare di tutto: analizzare testi e immagini, capire i video, contare gli oggetti. Ma la vera novità è che possono anche controllare PC e telefoni, proprio come fa Operator di OpenAI.

Il team di Qwen ha messo alla prova i suoi modelli con una serie di benchmark. Il migliore della classe, Qwen2.5-VL, ha stracciato GPT-4o di OpenAI, Claude 3.5 Sonnet di Anthropic e Gemini 2.0 Flash di Google in comprensione video, matematica, analisi di documenti e risposte a domande. Mica pizza e fichi, eh!

Ma cosa sa fare di preciso Qwen2.5-VL? Beh, può analizzare grafici e diagrammi, estrarre dati da fatture e moduli scannerizzati e capire video lunghi ore. E non è finita qui: sembra che riconosca anche “IP di film e serie TV, oltre a un sacco di prodotti“.

Però non bisogna aspettarsi che Qwen2.5-VL parli di tutto. Essendo un’AI cinese, ha alcune restrizioni sugli argomenti che può trattare, almeno su Qwen Chat. Basta chiedergli degli “errori di Xi Jinping”, spunterà un bel messaggio di errore. Eh sì, l’autorità cinese di regolamentazione di Internet ci tiene che le AI “incarnino i valori socialisti fondamentali“. Niente Taiwan, niente party.

Però, c’è una cosa che Qwen2.5-VL sa fare davvero bene: interagire con il software, sia su PC che su telefoni. In un video di Philipp Schmid di Hugging Face, si vede Qwen2.5-VL che apre Booking.com su Android e prenota un volo da Chongqing a Pechino. Però, su Linux sembra un po’ meno sveglio: in un altro video, riesce solo a cambiare scheda. Forse per questo ha preso un voto basso in OSWorld, un benchmark che imita un vero ambiente informatico.

Don’t Miss @Alibaba_Qwen 2.5 VL! Despite all the Deepseek Hype, Qwen just dropped the best open Multimodal! Qwen 2.5 VL is a Vision Language Model that can control your computer, similar to the @OpenAI operator, extract structured information from charts, and more!!

TL;DR;

3️⃣… pic.twitter.com/GeEGVdl0tI

— Philipp Schmid (@_philschmid) January 27, 2025