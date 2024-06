Nvidia ha appena presentato “Nemotron-4 340B“, una rivoluzionaria famiglia di modelli open source progettata per trasformare il modo in cui i dati sintetici vengono generati per l’addestramento dei modelli linguistici di grandi dimensioni.

In questo modo, le aziende potranno creare potenti LLM secondo le proprie esigenze, senza la necessità di ricorrere a vasti e costosi set di dati reali.

La famiglia Nemotron-4 340B, che comprende modelli di base, di istruzione e di ricompensa, fornisce una pipeline completa per la generazione di dati sintetici di alta qualità. Con un impressionante numero di 9 trilioni di token utilizzati per l‘addestramento, una finestra di contesto di 4.000 e il supporto per oltre 50 lingue naturali e 40 linguaggi di programmazione, Nemotron-4 340B supera i suoi concorrenti, tra cui Mixtral-8x22B di Mistral, Claude Sonnet di Anthropic, Llama3-70B di Meta e Qwen-2, e si avvicina persino alle prestazioni di GPT-4.

Uno degli aspetti più interessanti di Nemotron-4 340B è la sua licenza valida a livello commerciale, come sottolineato da Somshubra Majumdar, Senior Deep Learning Research Engineer, in un post su X.com.

Say hello to Nemotron 4 340B. The largest model we've released till date.

Fantastic scores across the board, and a testament to how strong synthetic data is for LLMs.

Best part ? The license is commercially viable.

Yeah, you can use this to generate all the data you want 🎉 https://t.co/6dCPM9ol5Y

— Somshubra Majumdar (@HaseoX94) June 14, 2024