Il captcha darà nuova linfa ad Internet Archive

I sistemini di autenticazione anti-bot possono contribuire a realizzare una biblioteca digitale del sapere umano. Gli utenti non devono far altro che usarli, difendendosi da spam e bot
I sistemini di autenticazione anti-bot possono contribuire a realizzare una biblioteca digitale del sapere umano. Gli utenti non devono far altro che usarli, difendendosi da spam e bot

Ogni giorno circa 60 milioni di captcha vengono risolti su Internet e ciascuno richiede 10 secondi di media per l’interpretazione da parte dell’utente, il che si traduce nel complesso in 150mila ore di lavoro al giorno : un conto pesante, pagato perché i captcha consentono a siti e servizi web di sapere che l’utente che vuole accedere o autenticarsi è un umano e non è un bot automatico. Ricercatori della Carnegie Mellon University hanno pensato a come trasformare questo lavorìo globale in un formidabile strumento di crescita culturale.

Un captcha , come noto, è essenzialmente una stringa di testo distorto che per un bot informatico è di difficile interpretazione . Al contrario, gli esseri umani sono molto abili in questo tipo di interpretazione: da qui la possibilità di usarli per tenere alla larga dai servizi online i bot , responsabili di registrazioni fasulle e spam .

Ora i tecnici della Carnegie Mellon vogliono andare oltre con il progetto reCAPTCHA in cui un doppio captcha viene proposto agli utenti, il cui contributo può curiosamente contribuire ad alimentare l’ Internet Archive .

Quando un utente incontra un sistema di identificazione reCAPTCHA, non deve fare altro che interpretare e trascrivere le due parole che lo compongono : se nel primo caso si tratta di un insieme di caratteri perfettamente noto al computer che lo presenta all’utente, e che quindi sarà sfruttato per convalidare l’accesso da parte di un umano ai suoi servizi, nel secondo caso l’immagine proposta riguarda un testo sconosciuto .

Il sistema dei ricercatori punta a raccogliere le “interpretazioni umane” del secondo vocabolo, formando un ventaglio di possibili soluzioni associate all’immagine presentata da reCAPTCHA: quando un buon numero di utenti avrà fornito una risposta coerente, a quell’immagine verrà definitivamente associata una interpretazione . In questo modo potranno essere “interpretate” le scansioni dei circa 12mila volumi che ogni mese Internet Archive digitalizza, che potranno così essere conservate in forma testuale: una soluzione molto meno ingombrante delle immagini a cui il progetto si è dovuto limitare fino ad oggi.

Il gruppo di scienziati capitanato dal professor Luis von Ahn spera di riuscire a rimpiazzare il più rapidamente possibile il maggior numero di captcha con un esemplare della nuova generazione: in questo modo sarà possibile trasformare il lavorìo degli umani sul captcha in un contributo costante allo sviluppo del progetto. Al momento sono circa 150 i siti che vi hanno aderito, e il lavoro degli utenti ha già contribuito ad identificare più di 8mila vocaboli .

Per rendere ancora più appetibile e utile questa nuova tecnologia è stata sviluppata anche una variante denominata reCAPTCHA Mailhide . Di cosa si tratta lo spiega Ben Maurer , studente presso la Carnegie Mellon: oggi molti siti mostrano gli indirizzi email nel formato “nome (at) dominio (dot) com”, per evitare che gli spammer li rastrellino , per bersagliarli con immondizia digitale. Per ottenere questo scopo, molto spesso vengono impiegate tecniche più o meno raffinate, che possono comprendere tabelle o anche codice javascript .

I malintenzionati si fanno tuttavia sempre più attenti ed oggi sono in grado di scavalcare molte di queste protezioni. reCAPTCHA Mailhide rappresenta una risposta semplice e gratuita al problema: sfruttando un captcha dedicato è possibile proteggere la propria email dai bot. Chi fosse interessato a scrivere una lettera al proprietario della casella, non dovrà fare altro che risolvere il captcha, anzi il reCAPTCHA, così da contribuire al lavoro collettivo.

“Si tratta di un esempio dell’importanza di avere collezioni aperte di pubblico dominio” ha detto Brewster Kahle , direttore del progetto Internet Archive: ” Le persone lavorano insieme per costruire un prodotto libero e di buona qualità”. L’intero progetto reCAPTCHA si basa sulle donazioni di Intel, SUSE e Novell per la realizzazione e la messa in rete dei server.

I captcha divengono dunque strumenti utili sia per combattere la spam che per assicurare la crescita di progetti utili e senza scopo di lucro. Eppure molto spesso sono visti come una seccatura dagli utenti: non mancano le polemiche sulle discriminazioni che questa tecnologia impone ad utenti con deficit visivi o dislessici , e le iniziative per promuovere soluzioni alternative .

Luca Annunziata

Link copiato negli appunti

Ti potrebbe interessare

27 05 2007
Link copiato negli appunti