All’inizio del mese è stata annunciata l’iniziativa OpenEuroLLM con l’obiettivo di sviluppare modelli open source di intelligenza artificiale generativa che coprono tutte le lingue dell’Unione europea. Uno dei due coordinatori del progetto (Jan Hajič) ha fornito maggiori dettagli e svelato la roadmap fino al 2028.
Sfida alle aziende statunitensi e cinesi
OpenEuroLLM è una collaborazione tra 20 organizzazioni (università, centri di ricerca, centri EuroHPC e aziende private) guidate da Jan Hajič (linguista computazionale della Charles University a Praga) e Peter Sarlin (CEO e co-fondatore di Silo AI). L’obiettivo principale è migliorare la competitività e la sovranità digitale dell’Europa nel settore dell’intelligenza artificiale.
Il budget iniziale è 37,4 milioni di euro (20,6 milioni dal Digital Europe Program), una somma molto inferiore a quelle investite da OpenAI, Google, Microsoft e altre Big Tech per l’addestramento dei modelli. Le principali differenze sono l’approccio open source e il rispetto dell’AI Act.
Jan Hajič sottolinea che il progetto non partirà da zero perché sono già disponibili dati e tool. Le prime versioni dei modelli verranno rilasciate entro metà 2026. Le versioni finali sono previste nel corso del 2028. Il codice verrà pubblicato su GitHub.
Il primo dataset proviene dal progetto HPLT. Contiene circa 4,5 PB di dati ottenuti principalmente da Internet Archive e oltre 20 miliardi di documenti. I modelli dovranno preservare la diversità culturale e linguistica di ogni paese. La qualità del risultato dipenderà quindi dalla disponibilità delle risorse digitali per le 24 lingue ufficiali europee.
Hajič ha dichiarato che verrà rispettata la direttiva europea sul copyright, quindi alcuni dati usati per l’addestramento non saranno liberamente accessibili. Ciò significa che i modelli AI non saranno open source al 100%.
Tra i partecipanti non c’è Mistral AI, startup francese che sviluppa modelli AI open source. Hajič ha cercato di coinvolgerla nel progetto, ma senza successo.