OpenEuroLLM: dettagli e roadmap dell'iniziativa

OpenEuroLLM: dettagli e roadmap dell'iniziativa

Uno dei coordinatori di OpenEuroLLM ha fornito diversi dettagli sul progetto e annunciato che le prime versioni dei modelli arriveranno a metà 2026.
OpenEuroLLM: dettagli e roadmap dell'iniziativa
Uno dei coordinatori di OpenEuroLLM ha fornito diversi dettagli sul progetto e annunciato che le prime versioni dei modelli arriveranno a metà 2026.

All’inizio del mese è stata annunciata l’iniziativa OpenEuroLLM con l’obiettivo di sviluppare modelli open source di intelligenza artificiale generativa che coprono tutte le lingue dell’Unione europea. Uno dei due coordinatori del progetto (Jan Hajič) ha fornito maggiori dettagli e svelato la roadmap fino al 2028.

Sfida alle aziende statunitensi e cinesi

OpenEuroLLM è una collaborazione tra 20 organizzazioni (università, centri di ricerca, centri EuroHPC e aziende private) guidate da Jan Hajič (linguista computazionale della Charles University a Praga) e Peter Sarlin (CEO e co-fondatore di Silo AI). L’obiettivo principale è migliorare la competitività e la sovranità digitale dell’Europa nel settore dell’intelligenza artificiale.

Il budget iniziale è 37,4 milioni di euro (20,6 milioni dal Digital Europe Program), una somma molto inferiore a quelle investite da OpenAI, Google, Microsoft e altre Big Tech per l’addestramento dei modelli. Le principali differenze sono l’approccio open source e il rispetto dell’AI Act.

Jan Hajič sottolinea che il progetto non partirà da zero perché sono già disponibili dati e tool. Le prime versioni dei modelli verranno rilasciate entro metà 2026. Le versioni finali sono previste nel corso del 2028. Il codice verrà pubblicato su GitHub.

Il primo dataset proviene dal progetto HPLT. Contiene circa 4,5 PB di dati ottenuti principalmente da Internet Archive e oltre 20 miliardi di documenti. I modelli dovranno preservare la diversità culturale e linguistica di ogni paese. La qualità del risultato dipenderà quindi dalla disponibilità delle risorse digitali per le 24 lingue ufficiali europee.

Hajič ha dichiarato che verrà rispettata la direttiva europea sul copyright, quindi alcuni dati usati per l’addestramento non saranno liberamente accessibili. Ciò significa che i modelli AI non saranno open source al 100%.

Tra i partecipanti non c’è Mistral AI, startup francese che sviluppa modelli AI open source. Hajič ha cercato di coinvolgerla nel progetto, ma senza successo.

Fonte: TechCrunch
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
18 feb 2025
Link copiato negli appunti