Durante l’evento Cloud Next ’25, Google ha svelato Ironwood, la nuova TPU (Tensor Processing Unit) di settima generazione per l’inferenza dei modelli di intelligenza artificiale. I clienti dell’azienda di Mountain View potranno sfruttare la potenza del chip per le applicazioni AI, incluse quelle che usano gli agenti in grado di eseguire compiti per conto dell’utente.
Caratteristiche di Ironwood
Google progetta TPU da oltre 10 anni, ma finora erano utilizzate per l’addestramento dei modelli AI. Ironwood è la prima TPU progettata specificamente per l’inferenza. Può gestire le richieste di calcolo dei cosiddetti modelli pensanti che offrono capacità di ragionamento, come la serie o di OpenAI.
Questi modelli richiedono una massiccia elaborazione parallela e un efficiente accesso alla memoria. Ironwood è stato progettato per ridurre il trasferimento dei dati e la latenza. I clienti di Google Cloud potranno scegliere tra una configurazione (pod) a 256 chip e una a 9.216 chip. Quest’ultima offre prestazioni fino a 42,5 Exaflops per pod, ovvero 24 volte superiori a quelle di El Capitan (1,7 Exaflops), il supercomputer più potente del mondo.
Un singolo chip Ironwood raggiunge i 4.164 TFLOPS. Ogni chip ha 192 GB di memoria HBM (6 volte in più rispetto alla TPU Trillium) con una larghezza di banda di 7,4 Tbps (4,5 volte in più rispetto a Trillium). Ironwood usa un sistema di raffreddamento a liquido e offre un’efficienza (performance/Watt) raddoppiata rispetto a Trillium.
Ironwood verrà ovviamente sfruttata per l’esecuzione dei modelli Gemini (attuali e futuri). Sarà disponibile per gli sviluppatori e i clienti di Google Cloud entro fine anno.