Apple lancia OpenELM, nuovo modello AI per i dispositivi

Apple si unisce alla corsa all’intelligenza artificiale generativa con il rilascio di OpenELM, una nuova famiglia di modelli linguistici di grandi dimensioni open-source. A differenza dei concorrenti che richiedono una connessione ai server cloud, OpenELM è progettato per essere eseguito interamente sui dispositivi.

Poche ore fa, la comunità di Hugging Face ha rilasciato OpenELM, che comprende otto modelli in totale: quattro pre-addestrati e quattro regolati da istruzioni. Questi modelli coprono diverse dimensioni di parametri, da 270 milioni a 3 miliardi, offrendo un’ampia gamma di prestazioni e capacità.

Apple abbraccia l’open source

La licenza del codice campione non proibisce l’uso o la modifica a fini commerciali, ma impone, a chi ridistribuisce il Software Apple nella sua interezza e senza modifiche, di mantenere l’avviso originale e le dichiarazioni di non responsabilità in tutte le ridistribuzioni del Software. In altre parole, è permesso l’utilizzo commerciale a condizione che vengano conservate le note di copyright presenti nel codice originale.

Tuttavia, l’azienda sottolinea che i modelli sono forniti senza garanzie di sicurezza e potrebbero produrre risultati imprecisi, dannosi o discutibili.

Caratteristiche di OpenELM

Il rilascio di OpenELM, acronimo di Open-source Efficient Language Models, rappresenta un passo sorprendente per Apple. L’azienda di Cupertino, infatti, è famosa per la sua riservatezza e per essere un’azienda tipicamente “chiusa”. Questo è l’ultimo di una serie di rilasci di modelli AI open-source da parte dell’azienda, che non ha ancora annunciato o discusso pubblicamente i suoi sforzi in questo campo, oltre a mettere online i modelli e i documenti.

I modelli OpenELM di Apple hanno quattro dimensioni: 270 milioni, 450 milioni, 1,1 miliardi e 3 miliardi di parametri, ciascuno dei quali è più piccolo di molti modelli ad alte prestazioni in circolazione (in genere si aggirano intorno ai 7 miliardi di parametri) e ciascuno dei quali è disponibile in versione pre-addestrata e istruita.

I modelli sono stati pre-addestrati su dataset pubblici di 1.800 miliardi di token provenienti da Reddit, Wikipedia, arXiv.org e altri. Sono adatti per essere eseguiti su computer portatili o persino su alcuni smartphone.

È interessante notare che i parametri sono allocati in modo specifico nei diversi livelli del modello. Secondo Apple, questo approccio permette di ottenere prestazioni migliori in termini di precisione, pur mantenendo un’elevata efficienza computazionale. La scalatura a livelli consente quindi di bilanciare performance e consumo di risorse, elemento fondamentale per l’esecuzione completamente on-device.

Prestazioni di tutto rispetto, ma non eccezionali

In termini di prestazioni, i risultati condivisi da Apple mostrano che i modelli OpenELM si comportano abbastanza bene, soprattutto la variante addestrata con 450 milioni di parametri. Tuttavia, come fatto notare da un utente che ha iniziato a testare i modelli, OpenELM sembra essere un “modello solido ma molto allineato“, il che significa che le sue risposte non sono particolarmente creative.

Il rivale Phi-3 Mini di Microsoft, recentemente introdotto e con 3,8 miliardi di parametri e lunghezza del contesto di 4k, è attualmente in testa in questo ambito. Ci si aspetta che OpenELM migliori nel lungo termine. Sarà interessante vedere come la comunità, già entusiasta della mossa open source di Apple, lo utilizzerà per diverse applicazioni.

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech