Ricercatori creano modello AI con meno di 50 dollari

Ricercatori creano modello AI con meno di 50 dollari

Il modello s1 è stato sviluppato da ricercatori statunitensi con 16 GPU NVIDIA H100 e la tecnica della distillazione, spendendo meno di 50 dollari.
Ricercatori creano modello AI con meno di 50 dollari
Il modello s1 è stato sviluppato da ricercatori statunitensi con 16 GPU NVIDIA H100 e la tecnica della distillazione, spendendo meno di 50 dollari.

DeepSeek ha stupito tutti con il suo modello R1 addestrato spendendo meno di 6 milioni di dollari. I ricercatori delle Stanford University e University of Washington hanno battuto ogni record, sviluppando il modello s1 con meno di 50 dollari. Il “trucco” è lo stesso adottato dall’azienda cinese, ovvero la tecnica della distillazione.

Violazione dei termini di servizio?

I ricercatori hanno utilizzato il modello Qwen2.5 di Alibaba come base di partenza (il codice sorgente è disponibile su GitHub). Per l’addestramento hanno creato un database composto da 1.000 domande, associate alle corrispondenti risposte. È stato quindi aggiunto il “ragionamento” del modello Gemini 2.0 Flash Thinking Experimental (accessibile agli sviluppatori da dicembre 2024 e a tutti gli utenti da alcuni giorni) di Google.

L’addestramento è avvenuto con 16 GPU NVIDIA H100 in meno di 30 minuti, spendendo meno di 50 dollari in crediti di cloud computing. L’uso di poche GPU e il basso costo è stato possibile grazie alla distillazione. La tecnica permette di migliorare un modello di piccole dimensioni sfruttando le risposte dei modelli più grandi, in questo caso Gemini 2.0 Flash Thinking Experimental.

I termini di servizio vietano però l’uso delle Gemini API per sviluppare modelli concorrenti. I ricercatori hanno quindi violato tali termini. Al momento, Google non ha rilasciato nessun commento. In pratica è lo stesso “trucco” usato da DeepSeek.

I ricercatori affermano che le prestazioni di s1 sono simili a quelle dei modelli o1 di OpenAI e R1 di DeepSeek nelle capacità matematiche e nella generazione di codice. Il modello è disponibile su GitHub.

Fonte: TechCrunch
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
9 feb 2025
Link copiato negli appunti