Anche Foxconn ha il suo modello di intelligenza artificiale generativa. Si chiama FoxBrain e deriva dal modello Llama 3.1 di Meta. Come il più noto R1 di DeepSeek è stato addestrato con un numero piuttosto basso di GPU sfruttando la tecnica della distillazione.
Capacità e prestazioni di FoxBrain
Foxconn è il più grande OEM del mondo. Nelle sue fabbriche vengono assemblati principalmente iPhone, ma tra i clienti ci sono anche Microsoft, Amazon, Google e NVIDIA. Come specificato nel comunicato stampa, FoxBrain era stato sviluppato per uso interno, ma l’azienda taiwanese ha deciso di offrirlo a tutti con licenza open source.
Per l’addestramento, completato in appena quattro settimane, sono state utilizzate 120 GPU NVIDIA H100. Il modello è basato sulla variante di Llama 3.1 con 70 miliardi di parametri. Grazie alla tecnica della distillazione (uso dei dati di output di Llama 3.1 come input per il training) è stato possibile ottenere un modello più efficiente con capacità di ragionamento che può essere eseguito sul dispositivo.
In base al benchmark pubblicato da Foxconn, le prestazioni di FoxBrain nella risoluzione di problemi matematici sono superiori a quelle del modello “genitore” Llama 3.1 70B. Può essere sfruttato anche per analisi dei dati, supporto decisionale e generazione di codice. Al momento “parla” solo cinese, lingua ufficiale di Taiwan.
Per completare l’addestramento è stato utilizzato il supercomputer Taipei-1 di NVIDIA. Foxconn specifica che le prestazioni di FoxBrain sono molto vicine a quelle dei migliori modelli, ma c’è ancora un piccolo gap con i modelli di DeepSeek (che avrebbe usato la distillazione con i dati di OpenAI).