DeepSeek AI, un laboratorio di ricerca cinese sull’intelligenza artificiale, sta facendo scintille nella comunità open-source. Il loro ultimo gioiello? DeepSeek-V3, un modello linguistico di grandi dimensioni basato su Mixture-of-Experts (MoE), con ben 671 miliardi di parametri totali e 37 miliardi attivati per ogni token.

I risultati parlano chiaro: secondo i principali benchmark, DeepSeek-V3 è il modello open-source più potente in circolazione, capace di superare anche i popolari modelli a sorgente chiusa come GPT-4o di OpenAI e Claude 3.5 di Anthropic.

DeepSeek-V3 ha fatto registrare risultati da primato in ben nove benchmark, più di qualsiasi altro modello paragonabile per dimensioni. Ma la cosa sorprendente è che, nonostante queste prestazioni eccellenti, DeepSeek-V3 richiede solo 2,788 milioni di ore GPU H800 per l’addestramento completo, con un costo di circa 5,6 milioni di dollari. Per fare un confronto, l’equivalente modello open-source Llama 3 405B richiede 30,8 milioni di ore GPU. Questo grazie al supporto dell’addestramento FP8 e a profonde ottimizzazioni ingegneristiche.

Ma le sorprese non finiscono qui. DeepSeek-V3 è anche estremamente efficiente nell’inferenza. A partire dall’8 febbraio, l’input di DeepSeek-V3 costerà 0,27 dollari per milione di token (0,07 dollari con la cache), mentre l’output costerà 1,10 dollari per milione di token. Praticamente un decimo di quanto fanno pagare attualmente OpenAI e altre aziende leader per i loro modelli di punta.

Il team di DeepSeek ha commentato così il lancio di DeepSeek-V3 su X: “La nostra missione è incrollabile. Siamo entusiasti di condividere i nostri progressi con la comunità e di vedere il divario tra modelli aperti e chiusi restringersi. Questo è solo l’inizio! Aspettatevi supporto multimodale e altre funzionalità all’avanguardia nell’ecosistema DeepSeek.”

