Non solo DeepSeek sta facendo scintille nel mondo dell’AI. Anche Alibaba, il colosso cinese dell’e-commerce, ha annunciato una nuova famiglia di modelli di intelligenza artificiale: i Qwen2.5-VL.
I nuovi modelli AI di Alibaba sanno fare di tutto: analizzare testi e immagini, capire i video, contare gli oggetti. Ma la vera novità è che possono anche controllare PC e telefoni, proprio come fa Operator di OpenAI.
Qwen2.5-VL di Alibaba sfida OpenAI
Il team di Qwen ha messo alla prova i suoi modelli con una serie di benchmark. Il migliore della classe, Qwen2.5-VL, ha stracciato GPT-4o di OpenAI, Claude 3.5 Sonnet di Anthropic e Gemini 2.0 Flash di Google in comprensione video, matematica, analisi di documenti e risposte a domande. Mica pizza e fichi, eh!
Ma cosa sa fare di preciso Qwen2.5-VL? Beh, può analizzare grafici e diagrammi, estrarre dati da fatture e moduli scannerizzati e capire video lunghi ore. E non è finita qui: sembra che riconosca anche “IP di film e serie TV, oltre a un sacco di prodotti“.
Però non bisogna aspettarsi che Qwen2.5-VL parli di tutto. Essendo un’AI cinese, ha alcune restrizioni sugli argomenti che può trattare, almeno su Qwen Chat. Basta chiedergli degli “errori di Xi Jinping”, spunterà un bel messaggio di errore. Eh sì, l’autorità cinese di regolamentazione di Internet ci tiene che le AI “incarnino i valori socialisti fondamentali“. Niente Taiwan, niente party.
Qwen2.5-VL, il mago di Android (ma non di Linux)
Però, c’è una cosa che Qwen2.5-VL sa fare davvero bene: interagire con il software, sia su PC che su telefoni. In un video di Philipp Schmid di Hugging Face, si vede Qwen2.5-VL che apre Booking.com su Android e prenota un volo da Chongqing a Pechino. Però, su Linux sembra un po’ meno sveglio: in un altro video, riesce solo a cambiare scheda. Forse per questo ha preso un voto basso in OSWorld, un benchmark che imita un vero ambiente informatico.
Don’t Miss @Alibaba_Qwen 2.5 VL! Despite all the Deepseek Hype, Qwen just dropped the best open Multimodal! Qwen 2.5 VL is a Vision Language Model that can control your computer, similar to the @OpenAI operator, extract structured information from charts, and more!!
TL;DR;
3️⃣… pic.twitter.com/GeEGVdl0tI— Philipp Schmid (@_philschmid) January 27, 2025
E la ciliegina sulla torta? I due modelli più piccoli di Qwen2.5-VL, Qwen2.5-VL-3B e Qwen2.5-VL-7B, sono gratis per tutti. Quello top, Qwen2.5-VL-72B, invece, ha una licenza personalizzata di Alibaba: se si hanno più di 100 milioni di utenti al mese, bisogna chiedere il permesso a Qwen/Alibaba prima di usarlo per fare soldi.