QwQ-32B di Alibaba raggiunge le prestazioni di DeepSeek-R1

QwQ-32B di Alibaba raggiunge le prestazioni di DeepSeek-R1

QwQ-32B di Alibaba offre prestazioni paragonabili a DeepSeek-R1 pur avendo solo 32 miliardi di parametri grazie al reinforcement learning.
QwQ-32B di Alibaba raggiunge le prestazioni di DeepSeek-R1
QwQ-32B di Alibaba offre prestazioni paragonabili a DeepSeek-R1 pur avendo solo 32 miliardi di parametri grazie al reinforcement learning.

Alibaba ha appena lanciato il suo nuovo modello QwQ-32B. Con appena 32 miliardi di parametri, riesce a tenere testa a sistemi ben più mastodontici in termini di ragionamento matematico, programmazione e problem-solving generale.

Meno è meglio: QwQ-32B sfida i giganti dell’AI

In realtà, Alibaba ci aveva già dato un assaggio delle potenzialità di QwQ-32B a novembre 2024, quando aveva presentato una versione preliminare chiamata QwQ-32B-Preview. Ma ora che il modello è nella sua forma definitiva, i risultati sono ancora più sorprendenti.

Chi pensa che per avere un’AI performante serva per forza un modello enorme è fuori strada. QwQ-32B è pronto a farci ricredere. Nei test su matematica, programmazione e risoluzione di problemi generali, questo modello se la gioca alla pari con il ben più corposo R1 di DeepSeek, con ben 671 miliardi di parametri.

Certo, R1 di DeepSeek usa un’architettura a “mixture-of-experts” che attiva solo 37 miliardi di parametri per ogni esecuzione. Ma richiede comunque una notevole quantità di memoria grafica per funzionare. E qui sta il bello di QwQ-32B: offre prestazioni top anche a chi non ha un hardware di ultimissima generazione.

Il segreto di QwQ-32B: il reinforcement learning

Ma come fa QwQ-32B a essere così bravo pur essendo così “piccolo”? I ricercatori di Alibaba attribuiscono gran parte del merito all’uso sapiente del reinforcement learning, applicato a un modello di base pre-addestrato con una vasta conoscenza del mondo. In pratica, QwQ-32B impara interagendo con giudici umani o altri modelli AI, migliorando costantemente in base alle ricompense che riceve.

Il processo di addestramento si è svolto in due fasi. Nella prima, il focus era sull’applicazione del reinforcement learning su larga scala per i task matematici e di programmazione, usando un verificatore di accuratezza e un server di esecuzione del codice.

Nella seconda fase, è stato aggiunto un ulteriore stage di reinforcement learning dedicato alle capacità generali, come seguire istruzioni, allinearsi alle preferenze umane e performance da “agente”. Grazie a queste abilità, QwQ-32B sa pensare in modo critico, usare strumenti e adattare le sue conclusioni in base al feedback dell’ambiente.

QwQ-32B brilla nei benchmark

I risultati parlano chiaro: nei test AIME24 per il ragionamento matematico, LiveCodeBench e LiveBench per le abilità di programmazione, IFEval per l’esecuzione di istruzioni e BFCL per l’elaborazione del linguaggio di base, QwQ-32B se la cava egregiamente, con risultati competitivi rispetto ai modelli ben più grandi.

Alibaba ha deciso di rilasciare QwQ-32B sotto licenza Apache 2.0, come modello open-weight su Hugging Face e ModelScope. Chiunque può accedervi tramite Hugging Face Transformers, l’API Alibaba Cloud DashScope o testarlo direttamente su Qwen Chat.

L’investimento miliardario nell’AI di Alibaba

D’altronde, Alibaba ha messo sul piatto ben 50 miliardi di euro per lo sviluppo dell’AI e delle infrastrutture cloud. Un investimento che supporta gli sforzi della Cina per creare processori domestici per l’addestramento di grandi modelli linguistici, riducendo la dipendenza da aziende USA come Nvidia.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
8 mar 2025
Link copiato negli appunti