Apple vuole eseguire i modelli IA sull'iPhone

Apple vuole eseguire i modelli IA sull'iPhone

I ricercatori di Apple hanno pubblicato un documento che spiega come eseguire un modello di IA generativa sull'iPhone, evitando l'accesso al cloud.
Apple vuole eseguire i modelli IA sull'iPhone
I ricercatori di Apple hanno pubblicato un documento che spiega come eseguire un modello di IA generativa sull'iPhone, evitando l'accesso al cloud.

Apple avrebbe già pianificato il lancio di numerose funzionalità di intelligenza artificiale generativa con iOS 18. L’azienda di Cupertino vuole però eseguire i modelli IA direttamente sull’iPhone, evitando l’accesso al cloud per motivi di privacy, sicurezza e prestazioni. Un documento pubblicato da alcuni ricercatori di Apple svela come aggirare le limitazioni.

Inferenza del modello IA sull’iPhone

Tutti i modelli di IA generativa vengono addestrati in data center con server dedicati, sfruttando principalmente la potenza delle GPU. L’accesso al cloud è necessario per l’inferenza, ovvero per l’esecuzione delle funzionalità IA e dei chatbot. I ricercatori di Apple hanno descritto alcune soluzioni che permettono di eseguire i LLM (Large Language Model) direttamente sull’iPhone. Tale approccio è stato adottato anche da Google con il modello Gemini Nano per Pixel 8 Pro.

Il documento descrive due tecniche che consentono di memorizzare i parametri dei modelli nella memoria flash dello smartphone. Ciò evita di caricare l’intero modello nella DRAM. Un modello con 7 miliardi di parametri occuperebbe 14 GB di RAM. Per ridurre la quantità di dati trasferiti dalla memoria flash alla DRAM e incrementare il throughput sono state sviluppate le tecniche note come Windowing e Row-column bundling.

I test effettuati con due configurazioni hardware (Apple M1 Max + SSD da 1 TB e computer Linux con GPU NVIDIA GeForce RTX 4090) hanno confermato l’efficacia della soluzione. L’inferenza dei modelli grandi fino al doppio della DRAM avviene a velocità fino a 4-5 volte superiore rispetto al tradizionale caricamento nella CPU e fino a 20-25 volte superiore rispetto al caricamento nella GPU.

Fonte: ArsTechnica
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il 22 dic 2023
Link copiato negli appunti