Con l’obiettivo dichiarato di rendere più accessibili e rappresentate le lingue e la cultura europee nel digitale, Microsoft ha annunciato due nuove iniziative. Una mira a colmare il divario linguistico nell’ambito dell’intelligenza artificiale, l’altra a valorizzare la ricchezza culturale del vecchio continente. Per tutti i dettagli rimandiamo al post condiviso sul blog ufficiale (link a fondo articolo).

I due progetti annunciati da Microsoft

I progetti sono stati svelati a Parigi. Vanno a rafforzare l’impegno già assunto quest’anno dal gruppo con l’European Digital Commitement al fine di espandere l’infrastruttura cloud e AI, rafforzare la resilienza digitale e la protezione della privacy dei dati, migliorare la cybersicurezza e sostenere la sovranità digitale e l’economia dell’area.

La prima iniziativa contribuirà ad addestrare un maggior numero di LLM multilingue, in Europa e per l’Europa. Microsoft lo farà collocando i team di due dei propri centri di innovazione a Strasburgo (Francia) e mettendo a disposizione l’infrastruttura di Azure, le proprie e le partnership già attive sul territorio, per promuovere una rappresentazione linguistica più inclusiva nei modelli di intelligenza artificiale . Tutto avrà inizio con la pubblicazione di un bando.

La seconda fa invece riferimento all’espansione di Culture AI per salvaguardare lingue, monumenti e artefatti, attraverso la creazione di repliche e la collaborazione sui dati. Dal 2019 a oggi sono già state conservate digitalmente opere come l’antica Olimpia in Grecia, Mount St. Michel in Francia e la Basilica di San Pietro a Roma. In autunno prenderà il via la collaborazione con il Ministero della Cultura francese e la società Iconem per replicare digitalmente Notre-Dame.

Il divario linguistico nell’era dell’AI

Concentrando in particolare l’attenzione sul primo dei due progetti, Microsoft è partita da una considerazione: l’Unione Europea ha 24 lingue ufficiali, senza considerare decine di altre lingue riconosciute a livello nazionale o regionale. Eppure, molte di queste (ad esempio danese, finlandese, svedese e greco) rappresentano meno dello 0,6% dei contenuti presenti sul web. Altri (maltese, irlandese, estone, lettone e sloveno) sono a malapena rintracciabili online.

Al tempo stesso, nonostante solo il 5% della popolazione mondiale parla inglese come prima lingua, il testo in inglese costituisce la metà dei contenuti su internet. Ne è un’inevitabile conseguenza l’impatto durante la fase di addestramento dei modelli di intelligenza artificiale. Ecco perché è importante contrastare questa sorta di sottorappresentazione digitale, per non rischiare che una lingua possa rischiare di rimanere esclusa dai futuri servizi.

Basti pensare a un piccolo imprenditore di Malta che parla solo maltese. Attualmente, gli strumenti avanzati di intelligenza artificiale per attività come l’analisi di mercato o la generazione di contenuti probabilmente non funzionano in maltese, limitando le possibilità di questo imprenditore di sfruttare l’intelligenza artificiale.

La situazione è ancora più critica con le lingue che l’UNESCO definisce come in via di estinzione: bretone, occitano e romancio.

L’impegno di Microsoft prende via attraverso la collaborazione con il Laboratorio ICube dell’Università di Strasburgo. Sarà coinvolto un team composto da 70 tra ingegneri, data scientist e professionisti. Inizierà attingendo all’archivio di dati multilingue in possesso alla software house, rendendolo accessibile e trasparente al pubblico europeo, compresi gli sviluppatori open source. Sono inclusi, tra gli altri, i dati di testo multilingue da GitHub e i set di dati vocali.

Un altro problema da affrontare è quello relativo agli script (sistemi di scrittura) che pongono sfide ai modelli originariamente progettati per l’alfabeto latino. I caratteri cirillici, l’alfabeto greco e la scrittura corsiva araba hanno proprietà diverse, che allo stato attuale possono danneggiare la capacità di un modello di apprendere un contesto più ampio o un’ortografia accurata in quelle lingue.

In fase di lancio anche due nuove collaborazioni accademiche presso l’Università di Strasburgo e la IE University School of Science & Technology in Spagna, rispettivamente per fornire sovvenzioni Azure a sostegno della ricerca congiunta sull’AI e per supportare la ricerca congiunta rivolta ai linguaggi con poche risorse.

La salvaguardia del patrimonio culturale

Abbiamo già citato l’iniziativa Culture AI, messa in campo nel 2019 e che presto porterà a creare la replica digitale di Notre-Dame. Di seguito alcuni dei risultati fin qui raggiunti.

Digitalizzazione di 1.500 scenografie teatrali dell’Opéra National de Paris (1800-1914), in collaborazione con la Bibliothèque Nationale de France, per renderle fruibili tramite esperienze interattive ed educative;

accesso digitale a 1,5 milioni di manufatti del Musée des Arts Décoratifs, relativi al periodo dal Medioevo a oggi, per supportare la ricerca storica e artistica attraverso l’AI;

creazione del gemello digitale della Basilica di San Pietro a Roma, basato su oltre 400.000 foto e algoritmi avanzati di intelligenza artificiale, in collaborazione con il Vaticano.

L’AI come strumento di valorizzazione

Chiudiamo con quella che è la visione di Microsoft per il futuro. Fa riferimento all’esigenza di adottare un approccio basato sui principi.