DeepSeek ha stupito tutti con il suo modello R1 addestrato spendendo meno di 6 milioni di dollari. I ricercatori delle Stanford University e University of Washington hanno battuto ogni record, sviluppando il modello s1 con meno di 50 dollari. Il “trucco” è lo stesso adottato dall’azienda cinese, ovvero la tecnica della distillazione.
Violazione dei termini di servizio?
I ricercatori hanno utilizzato il modello Qwen2.5 di Alibaba come base di partenza (il codice sorgente è disponibile su GitHub). Per l’addestramento hanno creato un database composto da 1.000 domande, associate alle corrispondenti risposte. È stato quindi aggiunto il “ragionamento” del modello Gemini 2.0 Flash Thinking Experimental (accessibile agli sviluppatori da dicembre 2024 e a tutti gli utenti da alcuni giorni) di Google.
L’addestramento è avvenuto con 16 GPU NVIDIA H100 in meno di 30 minuti, spendendo meno di 50 dollari in crediti di cloud computing. L’uso di poche GPU e il basso costo è stato possibile grazie alla distillazione. La tecnica permette di migliorare un modello di piccole dimensioni sfruttando le risposte dei modelli più grandi, in questo caso Gemini 2.0 Flash Thinking Experimental.
I termini di servizio vietano però l’uso delle Gemini API per sviluppare modelli concorrenti. I ricercatori hanno quindi violato tali termini. Al momento, Google non ha rilasciato nessun commento. In pratica è lo stesso “trucco” usato da DeepSeek.
I ricercatori affermano che le prestazioni di s1 sono simili a quelle dei modelli o1 di OpenAI e R1 di DeepSeek nelle capacità matematiche e nella generazione di codice. Il modello è disponibile su GitHub.