Un tasso di errore del 3,9% su 25 lingue. Microsoft ha rilasciato MAI-Transcribe-1, il terzo modello AI sviluppato internamente dopo MAI-Voice-1 (sintesi vocale) e MAI-Image-2 (generazione immagini, che ha raggiunto la terza posizione nelle classifiche). L’azienda lo definisce il modello di trascrizione più accurato al mondo, e i numeri gli danno ragione: primo posto nel benchmark FLEURS in 11 lingue core su 25, e superiore sia a Whisper-large-v3 che a Gemini 3.1 Flash di Google nelle restanti 14.
MAI-Transcribe-1: il modello Microsoft che trascrive meglio di Whisper e Gemini
MAI-Transcribe-1 supporta 25 lingue, compreso l’italiano. L’accuratezza media, misurata come Word Error Rate (WER), è del 3,9%. In pratica, su 100 parole trascritte, meno di 4 sono errate. Per la trascrizione automatica su lingue diverse, è un livello di precisione eccezionale.
La velocità è un altro punto forte, la trascrizione di file audio è 2,5 volte più veloce dell’offerta Azure Fast esistente. Il prezzo parte da 0,36 dollari per ora di audio trascritto, che Microsoft definisce il miglior rapporto prezzo-prestazioni tra i grandi provider cloud.
Cosa non fa (ancora)
MAI-Transcribe-1 non supporta la trascrizione in tempo reale, la capacità di distinguere le diverse voci in una conversazione né la possibilità di adattare la trascrizione a termini specifici. Funzionalità importanti per molti scenari aziendali, come riunioni, call center o sottotitoli live, che Microsoft prevede di aggiungere in una versione futura.
Per il momento, il modello è pensato per un uso semplice: si carica un file audio e si ottiene direttamente il testo.
Disponibilità
MAI-Transcribe-1 è disponibile in Microsoft Foundry insieme agli altri modelli proprietari. Microsoft sta costruendo un portfolio di modelli AI interni che affianca, e in alcuni casi compete con quelli di OpenAI distribuiti tramite Azure. È un segnale chiaro, Microsoft non vuole dipendere esclusivamente da OpenAI per l’AI.