Il captcha darà nuova linfa ad Internet Archive

I sistemini di autenticazione anti-bot possono contribuire a realizzare una biblioteca digitale del sapere umano. Gli utenti non devono far altro che usarli, difendendosi da spam e bot

Roma – Ogni giorno circa 60 milioni di captcha vengono risolti su Internet e ciascuno richiede 10 secondi di media per l’interpretazione da parte dell’utente, il che si traduce nel complesso in 150mila ore di lavoro al giorno : un conto pesante, pagato perché i captcha consentono a siti e servizi web di sapere che l’utente che vuole accedere o autenticarsi è un umano e non è un bot automatico. Ricercatori della Carnegie Mellon University hanno pensato a come trasformare questo lavorìo globale in un formidabile strumento di crescita culturale.

Un captcha , come noto, è essenzialmente una stringa di testo distorto che per un bot informatico è di difficile interpretazione . Al contrario, gli esseri umani sono molto abili in questo tipo di interpretazione: da qui la possibilità di usarli per tenere alla larga dai servizi online i bot , responsabili di registrazioni fasulle e spam .

Ora i tecnici della Carnegie Mellon vogliono andare oltre con il progetto reCAPTCHA in cui un doppio captcha viene proposto agli utenti, il cui contributo può curiosamente contribuire ad alimentare l’ Internet Archive .

Quando un utente incontra un sistema di identificazione reCAPTCHA, non deve fare altro che interpretare e trascrivere le due parole che lo compongono : se nel primo caso si tratta di un insieme di caratteri perfettamente noto al computer che lo presenta all’utente, e che quindi sarà sfruttato per convalidare l’accesso da parte di un umano ai suoi servizi, nel secondo caso l’immagine proposta riguarda un testo sconosciuto .

Il sistema dei ricercatori punta a raccogliere le “interpretazioni umane” del secondo vocabolo, formando un ventaglio di possibili soluzioni associate all’immagine presentata da reCAPTCHA: quando un buon numero di utenti avrà fornito una risposta coerente, a quell’immagine verrà definitivamente associata una interpretazione . In questo modo potranno essere “interpretate” le scansioni dei circa 12mila volumi che ogni mese Internet Archive digitalizza, che potranno così essere conservate in forma testuale: una soluzione molto meno ingombrante delle immagini a cui il progetto si è dovuto limitare fino ad oggi.

Il gruppo di scienziati capitanato dal professor Luis von Ahn spera di riuscire a rimpiazzare il più rapidamente possibile il maggior numero di captcha con un esemplare della nuova generazione: in questo modo sarà possibile trasformare il lavorìo degli umani sul captcha in un contributo costante allo sviluppo del progetto. Al momento sono circa 150 i siti che vi hanno aderito, e il lavoro degli utenti ha già contribuito ad identificare più di 8mila vocaboli .

Per rendere ancora più appetibile e utile questa nuova tecnologia è stata sviluppata anche una variante denominata reCAPTCHA Mailhide . Di cosa si tratta lo spiega Ben Maurer , studente presso la Carnegie Mellon: oggi molti siti mostrano gli indirizzi email nel formato “nome (at) dominio (dot) com”, per evitare che gli spammer li rastrellino , per bersagliarli con immondizia digitale. Per ottenere questo scopo, molto spesso vengono impiegate tecniche più o meno raffinate, che possono comprendere tabelle o anche codice javascript .

I malintenzionati si fanno tuttavia sempre più attenti ed oggi sono in grado di scavalcare molte di queste protezioni. reCAPTCHA Mailhide rappresenta una risposta semplice e gratuita al problema: sfruttando un captcha dedicato è possibile proteggere la propria email dai bot. Chi fosse interessato a scrivere una lettera al proprietario della casella, non dovrà fare altro che risolvere il captcha, anzi il reCAPTCHA, così da contribuire al lavoro collettivo.

“Si tratta di un esempio dell’importanza di avere collezioni aperte di pubblico dominio” ha detto Brewster Kahle , direttore del progetto Internet Archive: ” Le persone lavorano insieme per costruire un prodotto libero e di buona qualità”. L’intero progetto reCAPTCHA si basa sulle donazioni di Intel, SUSE e Novell per la realizzazione e la messa in rete dei server.

I captcha divengono dunque strumenti utili sia per combattere la spam che per assicurare la crescita di progetti utili e senza scopo di lucro. Eppure molto spesso sono visti come una seccatura dagli utenti: non mancano le polemiche sulle discriminazioni che questa tecnologia impone ad utenti con deficit visivi o dislessici , e le iniziative per promuovere soluzioni alternative .

Luca Annunziata

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicato. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy

  • Anonimo scrive:
    Un po' di alternative?
    Chi mi elenca un po' di alternative serie, rapide e funzionanti?Io, tempo fa, avevo provato ad usare di tutto (ho provato anche diversi motori cinesi) ma con risultati discutibili.
    • Anonimo scrive:
      Re: Un po' di alternative?
      - Scritto da:
      Chi mi elenca un po' di alternative serie, rapide
      e
      funzionanti?

      Io, tempo fa, avevo provato ad usare di tutto (ho
      provato anche diversi motori cinesi) ma con
      risultati
      discutibili.clusty.com
  • Nilok scrive:
    Il Mondo delle Favole.
    Ave. E' divertente vedere quanti sforzi vengono fatti per cercare di illuderci che i dati ottenuti tramite Internet vengono "cancellati" dopo un certo periodo.E' come dire che dopo aver cancellato un file, sull'Hard Disk non ne resta alcuna traccia : una bugia che si scioglie come neve al sole.Non lo so per certo ma mi piace credere che i Servizi Segreti degli USA e delle altre grandi Potenze Mondiali, hanno e mantengono aggiornate tutte le registrazioni di quanto avviene, su tutto il pianeta, in Internet, fin da quando è esistita.Chi non è d'accordo provi a smentirmi.Con che ipocrisia l'UE incolpa Google di qualcosa che lei stessa fà?Intendiamoci non difendo Google (che è una fonte primaria di DISINFORMAZIONE planetaria), ma difendo l'immagine di noi Internauti che, con la diffusione di queste "notizie" veniamo considerati avere una Intelligenza apri a quella di " scimmie appena scese dagli alberi ".Ma purtroppo per chi diffonde questa disinformazione non è così .A presto.Nilokhttp://informati.blog.tiscali.it/
    • Anonimo scrive:
      Re: Il Mondo delle Favole.
      - Scritto da: Nilok
      Non lo so per certo ma mi piace credere che i
      Servizi Segreti degli USA e delle altre
      grandi Potenze Mondiali, hanno e mantengono
      aggiornate tutte le registrazioni di quanto
      avviene, su tutto il pianeta, in Internet, fin da
      quando è
      esistita.
      Chi non è d'accordo provi a smentirmi.ti sei smentito da solo nella parte che ho messo in grassetto.
      Con che ipocrisia l'UE incolpa Google di qualcosa
      che lei stessa
      fà?ciò che può fare uno stato non necessariamente può essere fatto da un privato.
      A presto.

      Nilok
      http://spamdimmerda/spammer.
    • MeX scrive:
      Re: Il Mondo delle Favole.
      ...forse non hai mai visto una data center con ARMADI di HD... ora... dimmi se cancello un file come cacchio fai a recuperare l'HD su cui c'è il tuo file... e ripristinarlo...
      • Anonimo scrive:
        Re: Il Mondo delle Favole.
        - Scritto da: MeX
        ...forse non hai mai visto una data center con
        ARMADI di HD... ora... dimmi se cancello un file
        come cacchio fai a recuperare l'HD su cui c'è il
        tuo file... e
        ripristinarlo...Cancellare?Tu mica puoi cancellare i file dai loro archivi.Loro potrebbero, ma solitamente mettono un flag "eliminato" in modo che *tu* non vedi più il file.
        • AtariLover scrive:
          Re: Il Mondo delle Favole.
          - Scritto da:

          - Scritto da: MeX

          ...forse non hai mai visto una data center con

          ARMADI di HD... ora... dimmi se cancello un file

          come cacchio fai a recuperare l'HD su cui c'è il

          tuo file... e

          ripristinarlo...

          Cancellare?
          Tu mica puoi cancellare i file dai loro archivi.
          Loro potrebbero, ma solitamente mettono un flag
          "eliminato" in modo che *tu* non vedi più il
          file.
          Al solito, è questione di fiducia...Chi ci assicura che qualcuno non tenga in un grande archivio cosa compro con la carta di credito? Chi mi dice che nessuno può accedere ai miei dati del servizio sanitario nazionale? E chi mi dice che ogni cosa che scrivo su internet non viene registrata e mantenuta per schedarmi?Idem con la mia email che do a PI per avere un account o per firmare una petizione...Bisogna decidere se la possibilità di essere oggetto di schedatura valga il beneficio che ne traiamo.Nessuno può GARANTIRE che tutti i miei dati vengano mantenuti anonimi, devo vedere se mi fido e se val la pena di correre il rischio...Altrimenti nemmeno più una attivazione di windows farei ;)
      • Nilok scrive:
        Re: Il Mondo delle Favole.
        Ciao,esistono molti softwares che recuperano ciò che è stato non solo cancellato ma anche formattato o parzialmente "riscritto".Infatti esistono molti softwares che effettuano il "wiping" sia del file o dei files che desideri, anche dello spazio vuoto dell'hard disk.Inoltre molti di questi softwares di "wiping" non garantiscono poi l'"irrecuperabilità" del file o dei files di cui hanno operato il "wiping".Gli Armadi pieni di hard disks vengono comunque "gestiti" da softwares tipo "esplora risorse" in windows, che sanno ESATTAMENTE dov'è quel file ed ovviamente in quale HD.A presto.Nilokhttp://informati.blog.tiscali.it/
  • medioman scrive:
    google si, Google no
    Innanzitutto c'e' da dire che fino ad oggi Google ha dimostrato una notevole capacita' innovativa e di offrire servizi realmente utili, tanto che tutti gli altri gli corrono dietro affnnosamente.Per creare servizi utili e' evidente che si debba "dialogare" con i propri utenti, ma perxhe' sia un vero dialogo entrambe le parti devono essere ben consapevoli di quali siano le implicazioni in gioco. E' qui che Google forse ha peccato, e forse anche in modo pesante pur se a mio parere senza eccessivo dolo. Il primo problema riguarda coloro che hanno sottoscritto un account con google (gmail), e che non so quanto consapevolmente rilasciano una marea di dati sensibili al fornitore del servizio. I cookie di auteticazione hanno una tale persistenza che praticamente tutti gli utilizzatori di gmail rimangono loggati praticamente in continuazione, e cio' non e' un bene visto che le proprie ricerce sul motore possono venire associate all'account. Altra magagna e' il parsing del testo delle email che viene effettuato per estrapolare indici da usare per la pubblixcita' mirata. Non tutti (forse anzi pochi) sono informati del fatto che gmail scandaglia non solo le mail inviate, ma anche quelle ricevute, in cerca di termini per la costruzione di indici di marketing. Google mi pare che affermi come tali pratiche vengano fatte in modo automatico ed anonimo, ma ci si deve fidare. Il secondo problema e' citato nel primo, ovvero l'inclusione di dati che appartengono a terze persone (quelli che vi inviano le mail per intenderci) e che non hanno in alcun modo autorizzato google a utiizzare i propri dati. Per quanto riguarda il logging degli IP c'e' da dire che Google ha dimostrato una certa serieta' nel difendere questo genere di dati, ma e' stato anche dimostrato (mi pare) che poco possa fare contro un ingiunzione di un tribunale americano, il che comporta che i dati di cittadini di altri paesi possone venire in possesso di un paese terzo indipendentemente dall'illecita' dei loro comportamenti (illeceita' sanzionabile solo in base alle leggi di ogni paese). Del resto il problema non e' Google, poihe' le stesse pratiche vengno espletate da tutti gli altri operatori del settore...Quanto affermo e' esperito sulla base delle notizie di stampa disponibili, e quindi passibile di smentite, del resto di questi problemi questa stessa testata se n'e' ocuptata piu' volte
    • Pejone scrive:
      Re: google si, Google no
      - Scritto da: medioman
      Innanzitutto c'e' da dire che fino ad oggi Google
      ha dimostrato una notevole capacita' innovativa e
      di offrire servizi realmente utili, tanto che
      tutti gli altri gli corrono dietro
      affnnosamente.Questo è sicuramente vero ma che
      Per creare servizi utili e' evidente che si debba
      "dialogare" con i propri utentisu questo non sono d'accordo.Serve dialogare coi propri utenti per capire che sarebbe bello un bel "office" gratuito da usare on line?O un pratico blocco note??O una bella toolbar che ti fa fuori tutti i pop-up?Io sono davvero soddisfatto di quello che ogni giorno Google ci mette a disposizione, ricordiamolo, gratuitamente ma è ovvio che la raccolta dei dati sensibili in qualche maniera ci fa "pagare" tutte queste comodità.
      • medioman scrive:
        Re: google si, Google no



        Per creare servizi utili e' evidente che si
        debba

        "dialogare" con i propri utenti

        su questo non sono d'accordo.
        Serve dialogare coi propri utenti per capire che
        sarebbe bello un bel "office" gratuito da usare
        on
        line?
        O un pratico blocco note??
        O una bella toolbar che ti fa fuori tutti i
        pop-up?Direi di si, sempre che ci si intenda su cosa voglia dire dialogare. E' un fondamento del commercio quello di saper interpretare le reali necessita' dei possibili clienti, e google non e' esente da questi fondamentali. Anzi, la raffinateza del suo "dialogo" con gli utenti e' cio' che lo rende sempre anticipatore nella creazione di servizi utli. Anche quando non innova concettualmente lo fa nel modo di utilizzo, penso ad esempio a googlemaps. Ovviamente il mining sulle email solo in piccola parte e' giustificato dalla necessita' di conoscere gli utenti per adattare il proprio sviluppo di servizi, mentre in gran parte serve per offrire uno strumento di marketing da rivendere ai suoi partner commerciali, cosa questa che rende le critiche assolutamente legittime. E' purtuttavia vero che gli utenti gmail sono messi al corrente di tali pratiche, e vengono remunerati dall'uso di servizi gratuiti, non cosi' e' pero' per chi con questi utenti mantiene una corrispondenza, e non riceve alcun vantaggio in cambio dell'uso dei suoi dati (non e' un discorso di anonimato o meno).
        • Pejone scrive:
          Re: google si, Google no
          - Scritto da: medioman




          non cosi' e' pero' per chi con questi utenti
          mantiene una corrispondenza, e non riceve alcun
          vantaggio in cambio dell'uso dei suoi dati Hai ragione medioman.Chi non ha un account non ne guadagna niente da google.E il più delle volte cedono inconsapevolmente la loro privacy semplicemente mandando un email a una persona fidata.Un paradosso davvero imprevisto questo....
    • Anonimo scrive:
      Re: google si, Google no
      - Scritto da: medioman
      Innanzitutto c'e' da dire che fino ad oggi Google
      ha dimostrato una notevole capacita' innovativa e
      di offrire servizi realmente utili, tanto che
      tutti gli altri gli corrono dietro
      affnnosamente.Concordo, alcuni dei servizi sono davvero rivoluzionari e diversi altri siti si basano sulle sue tecnologie, se Google non esistesse non avremmo tutto questo.
      Per creare servizi utili e' evidente che si debba
      "dialogare" con i propri utenti, ma perxhe' sia
      un vero dialogo entrambe le parti devono essere
      ben consapevoli di quali siano le implicazioni in
      gioco. E' qui che Google forse ha peccato, e
      forse anche in modo pesante pur se a mio parere
      senza eccessivo dolo. Prima di sottoscrivere un qualunque account ci sono sfilze di disclaimer, informative e consensi da rilasciare nei quali è esplicitamente indicato che i dati forniti possono essere utilizzati a fini commericiali, pubblicitari ed in alcune circostanze forniti anche a terzi. So che leggere tutta quella roba è una rottura di scatole ma poi non si può cascare dalle nuvole. La durata del "data retention" non è rilevante per l'utente finale e se una commissione decreta che tale periodo è sproporzionato allora Google risponderà alla commissione adeguandosi, non agli utenti.
      Il primo problema riguarda
      coloro che hanno sottoscritto un account con
      google (gmail), e che non so quanto
      consapevolmente rilasciano una marea di dati
      sensibili al fornitore del servizio. I cookie di
      auteticazione hanno una tale persistenza che
      praticamente tutti gli utilizzatori di gmail
      rimangono loggati praticamente in continuazione,
      e cio' non e' un bene visto che le proprie
      ricerce sul motore possono venire associate
      all'account. Anche per questo vale il discorso di cui sopra, basta leggere tutto prima di accedere al servizio. In ogni caso puoi decidere di non salvare le informazioni di login e tutte le tue paure spariscono con il solo scotto di fare login ogni volta. Le ricerche sono associate all'account per fornire servizi come la ricerca personalizzata e lo storico delle ricerche ma non vedo cosa ci sia di male visto che anche questo è detto abbastanza esplicitamente.
      Altra magagna e' il parsing del
      testo delle email che viene effettuato per
      estrapolare indici da usare per la pubblixcita'
      mirata. Non tutti (forse anzi pochi) sono
      informati del fatto che gmail scandaglia non solo
      le mail inviate, ma anche quelle ricevute, in
      cerca di termini per la costruzione di indici di
      marketing. Se tutti avessero letto le informative lo saprebbero eccome. Non è una "magagna".
      Google mi pare che affermi come tali
      pratiche vengano fatte in modo automatico ed
      anonimo, ma ci si deve fidare.Sapessi di quanti ti fidi inconsapevolmente che ti buggerano costantemente, prendi gli addetti ai sistemi di smistamento degli SMS (centri servizi e call completion) che si fanno quattro risate degli affari tuoi con i tabulati "di prova" ed i log o della signora dell'ufficio postale/banca che va dicendo alle comari quanti soldi hai o non hai sul conto, dell'amico che con la scusa di giocare con il tuo cellulare si spulcia tutta la rubrica e l'archivio messaggi... per tutto questo e tanto altro ancora non hai nemmeno dovuto accettare un disclaimer piccolo piccolo.
      Il secondo
      problema e' citato nel primo, ovvero l'inclusione
      di dati che appartengono a terze persone (quelli
      che vi inviano le mail per intenderci) e che non
      hanno in alcun modo autorizzato google a
      utiizzare i propri dati. C'è una netta differenza tra dati personali ed il contenuto di una e-mail. Se Google non elabora gli indirizzi e-mail ed i nominativi dei mittenti/destinatari, non c'è nessun problema a maggior ragione se la procedura di analisi, esposta in fase di registrazione, è automatica.
      Per quanto riguarda il
      logging degli IP c'e' da dire che Google ha
      dimostrato una certa serieta' nel difendere
      questo genere di dati, ma e' stato anche
      dimostrato (mi pare) che poco possa fare contro
      un ingiunzione di un tribunale americano, il che
      comporta che i dati di cittadini di altri paesi
      possone venire in possesso di un paese terzo
      indipendentemente dall'illecita' dei loro
      comportamenti (illeceita' sanzionabile solo in
      base alle leggi di ogni paese). Del resto il
      problema non e' Google, poihe' le stesse pratiche
      vengno espletate da tutti gli altri operatori del
      settore...Esattamente, qui però il problema è di natura legale, contro quella ci si può fare poco, almeno finchè qualcuno che realmente capisce tutti gli aspetti di queste problematiche non si siede ad un tavolo e decide di rifare tutto.
      Quanto affermo e' esperito sulla base
      delle notizie di stampa disponibili, e quindi
      passibile di smentite, del resto di questi
      problemi questa stessa testata se n'e' ocuptata
      piu'
      volteIl problema è che si alzano sempre polveroni su questioni che coinvolgono grosse aziende, è bello costruire castelli per aria, volare con la fantasia ed immaginare complotti immedesimandosi in 007. Quello di cui non ci si accorge sono le innumerevoli buggerature di cui siamo vittime nelle "piccole" cose di uso comune (telefono, posta, televendite etc).Saluti :)
  • Anonimo scrive:
    Google ha rotto i maroni
    Troppo invasiva e troppo saccente.Passiamo tutti a YAHOO.
    • Anonimo scrive:
      Re: Google ha rotto i maroni
      infatti Yahoo ha tutelato molto bene la privacy di quel blogger cinese dissidente....
      • Anonimo scrive:
        Re: Google ha rotto i maroni
        - Scritto da:
        infatti Yahoo ha tutelato molto bene la privacy
        di quel blogger cinese
        dissidente....Ma i Cinesi sono tanti,....uno in meno.....che sarà mai.
      • Anonimo scrive:
        Re: Google ha rotto i maroni
        - Scritto da:
        infatti Yahoo ha tutelato molto bene la privacy
        di quel blogger cinese
        dissidente....Così impara a essere dissidente. E per di più cinese.
Chiudi i commenti