A distanza di oltre due anni dal lancio di Maia 100, Microsoft ha annunciato il successore Maia 200. Il nuovo chip offre prestazioni superiori alla precedente generazione e ai chip concorrenti. L’azienda di Redmond ha svelato i dettagli dell’architettura.
Maia 200: architettura per l’inferenza AI
Maia 200 è un acceleratore AI che viene utilizzato per l’inferenza (non per l’addestramento) dei modelli di intelligenza artificiale. Viene in pratica sfruttato quando gli utenti interagiscono con gli assistenti AI (ChatGPT, Copilot e altri). Deve quindi garantire latenza ridotta ed efficienza energetica. Il chip, realizzato da TSMC con tecnologia di processo a 3 nanometri, contiene oltre 140 miliardi di transistor (circa il 40% in più di Maia 100).
L’architettura di Maia 200 adotta un design a “tile”, singole unità di calcolo autonome con storage locale. Ogni tile integra una Tile Tensor Unit (TTU) per calcoli matriciali ad alte prestazioni e una Tile Vector Processor (TVP) per l’elaborazione SIMD (Single Instruction, Multiple Data). È presente inoltre una Tile Control Processor (TCP) che esegue codice di basso livello.
È possibile combinare fino a 6.144 chip in un cluster, ognuno dei quali ha una SRAM dedicata. Il sottosistema di memoria di Maia 200 è composto da 272 MB di SRAM e 216 GB di HBM3e con larghezza di banda pari a 7 GB/s. Per lo spostamento dei dati tra tile e memorie è presente un NoC (Network-on-Chip). La comunicazione tra i chip avviene tramite interfacce di rete che raggiungono i 2,8 TB/s.
L’architettura di Maia 200 permette di ottenere prestazioni superiori a 10 petaFLOPS con precisione a 4 bit e 5 petaFLOPS con precisione a 8 bit, superando i concorrenti AWS Trainium 3 e Google TPU v7. Il chip di Microsoft consuma solo 750 Watt.
Verrà ovviamente utilizzato nei server Azure a partire da quelli che si trovano negli Stati Uniti. Maia 200 elaborerà le richieste degli utenti che usano i modelli GPT-5.2 di OpenAI e quelle degli sviluppatori tramite Microsoft Foundry. Un SDK dedicato consentirà di sfruttare al massimo il nuovo chip per app e servizi.