Web/ L'era dei traduttori universali

Sarà Internet a riunire nuovamente tutte le lingue del mondo? Il progetto Universal Networking Language sembra puntare proprio a quello e fornire al Web gli strumenti necessari per abbattere le divisioni idiomatiche


“Can I kick it? Yes you can!”
“See someone about a horse”
“That’s my boy!”

Tutti a lezione d’inglese! Sicuramente la loro traduzione letterale suona come:

“Posso calciarlo? Si, vai!”
“Vedere qualcuno circa un cavallo”
“Questo è il mio ragazzo!”

Ma nello slang da dove ho preso spunto, il loro vero significato è totalmente diverso:

“Come vi sembra? Bene, bravo!”
“Andare al gabinetto”
“Bravo! Hai fatto bene!”

Quante volte avete trovato documenti interessanti per lavoro o diletto e vi siete arenati per il linguaggio troppo complesso? Personalmente ho trovato situazioni davvero difficili che hanno assorbito totalmente la mia concentrazione facendo volare delle ore!

Per questo sono nati strumenti come i classici traduttori che tutti conosciamo, alcuni gratuiti come Babylon Translator, in grado di tradurre “al volo” semplici parole o intere frasi mentre navigate con il vostro browser. Programmi utili, ma che spesso risultano poco efficaci e che producono risultati alle volte esilaranti.

Certo è che se vi trovate a tradurre materiale tecnico o medico… beh… la risata non credo sia proprio la reazione più immediata da parte vostra!

Ma sembra che le notti insonni siano giunte al termine perché proprio nel lontano Giappone sono decisi a far crollare un altro muro dopo quello di Berlino: la Torre di Babele dei 3000 e oltre linguaggi esistenti sulla Terra (dato ufficiale ONU).

Questo “piccone” virtuale porta il nome di Universal Networking Language, UNL per gli amici.


Il dottor Hiroshi Uchida ha deciso di portare avanti un progetto davvero ciclopico presso la United Nations University (divisione Institute of Advanced Studies): sviluppare un traduttore universale efficace e completo.

Il software per l’Italia è stato sviluppato dall’ Istituto di Linguistica Computazionale del Consiglio Nazionale delle Ricerche di Pisa , sotto la direzione di Irina Prodanof.

Con una descrizione sommaria possiamo dire che l’UNL permetterà di convertire immediatamente una pagina Web nella propria lingua: un visitatore italiano vedrà il testo ed il contenuto (non il testo nelle immagini ovviamente) in italiano, mentre uno spagnolo la vedrà nella propria lingua.

Al suo esordio, il nostro interprete virtuale sarà disponibile in sei lingue (inglese, francese, spagnolo, russo, arabo, cinese) a cui si andranno a sommare entro l’anno altre 10 lingue tra cui l’italiano.

In pratica, l’utente spagnolo che vuole pubblicare qualcosa, scrive il testo da convertire in UNL con un programma chiamato UNL Editor: l’editor identifica come spagnolo la lingua del testo ed invia la richiesta di conversione in UNL al Language Server spagnolo, dopo tale conversione viene ritornata all’editor dove verrà inserito all’interno del codice HTML stesso e archiviato in rete.

Un utente italiano che vuole leggere nella propria lingua il testo spagnolo non deve far altro che selezionare la propria lingua nella pagina dove è disponibile il servizio di traduzione, mettendo in funzione automaticamente un altro software chiamato UNL Viewer che si occuperà di inviare la richiesta di deconversione del testo (convertito in UNL) al Language Server Italiano.
A tal punto il risultato prodotto sarà l’invio del testo in italiano al proprio viewer, testo originariamente scritto in spagnolo.

Ogni stato che lavora al progetto avrà un suo Language Center con un proprio Language Server nella sua lingua pilotato da un quartier generale che coordina tutti i Language Center mondiali, in questo modo verrà garantito l’aggiornamento costante ed uniforme delle risorse disponibili.


La tecnologia adottata sfrutta di per sé un’analisi a noi conosciuta: quella dei concetti. Tecnologia del tutto nuova, invece, se consideriamo l’applicazione software.

Il sistema è basato fondamentalmente sull’analisi dei vari concetti che compongono più frasi, arrivando alla composizione di un testo completo. In pratica, l’UNL non è altro che una lista di concetti relazionati tra loro.

A grandi linee possiamo paragonarlo al nuovo standard Web (XML) che utilizza dei marcatori personalizzabili (non ristretti a dei marcatori standard come nell’HTML) in cui i concetti rappresentati da parole universali possono essere seguiti da una lista che ne restringe l’uso ad un campo più specifico e da una lista di attributi che permettono di avere un panorama più preciso del contesto della frase.

Gli eventuali attributi utilizzati nella conversione del testo servono ad indicare come considera i concetti che esprime chi scrive, mentre le relazioni tra i concetti espressi costituiscono gli enunciati unl.

Nel dettaglio, troviamo che i concetti sono rappresentati da “parole universali” chiamate UWs le quali possono essere semplici o composte da relazioni binarie (in quest’ultimo caso prendono il nome di UW-IDs): sono stringhe formate da una parola della lingua inglese a cui può essere “agganciata” una lista che restringe l’interpretazione di una UW ad un singolo concetto e da ulteriori attributi che delineano meglio l’utilizzo di tale concetto nel contesto della frase.

Sono state ipotizzate tre tipi di UWs: quelle base come buy[comprare] o car[auto]; quelle ristrette seguite da una lista di restrizione contrassegnata da (icl>) come nel caso di “sei in uno stato formidabile!” in cui state(icl>situation) diventa sicuramente diverso da “lo stato ungherese” in cui state(icl>government) indica la nazione geografica. Per finire si trovano le extra UWs che sono uno speciale tipo di parole non inglesi come tango(icl>dance).

Gli eventuali attributi delle UWs sono espressi da una parola inglese preceduta da @, mentre le relazioni binarie tra i concetti espressi dalle UWs creano i blocchi di enunciati UNL.

Per fare un esempio:

“Un gatto mangia pesce” in inglese diventa “Cat eats fish”.

[S]=inizio frase

{unl}=inizio enunciato UNL

[W]=inizio della serie di UW

eats(icl>do).@present.@entry:00

cat(icl>animal).@generic:01

fish(icl>food).@generic:02

[/W]=fine serie UW

[R]=inizio relazioni binarie

00agt01=agent, cosa che inizia un’azione:

relazione tra UW1:fare e UW2:una cosa 00oby02=(object),

cosa che subisce un’azione:relazione tra UW1:un atto o uno stato, e UW2:una cosa

[/R]

[/S]

Beh, diciamo pure che non è proprio l’HTML, ma sembra destinato a riscuoterne lo stesso successo.

Come gli stessi curatori del progetto affermano, non possiamo aspettarci una certa raffinatezza del linguaggio (che è già raro trovare nelle persone) come la traduzione della Divina Commedia o l’Odissea, ma per il settore tecnologico/scientifico, dei servizi e del commercio elettronico, dovrebbe portare ottimi risultati, sicuramente di gran lunga migliori di quelli attualmente raggiunti dai traduttori “word to word”.

Forse siamo davvero giunti ad una nuova era dell’informazione: abbiamo visto la trasmissione di informazioni via segnali di fumo, poi via radio, poi via cavo nella televisione, poi via satellite, poi via Internet… ma ora siamo di fronte al possibile crollo di un muro che nemmeno le guerre sono riuscite a buttar giù… e scusate se è poco!

Un’ultima chicca per concludere: il programma e tutto il necessario saranno disponibili gratuitamente.

Marco Trevisan

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicato. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy

Chiudi i commenti