MIT elimina il dataset 80 Million Tiny Images e si scusa

80 Million Tiny Images è offline, le scuse del MIT

Il dataset, popolato da quasi 80 milioni di immagini raccolte da Google e impiegato per istruire gli algoritmi, è stato messo offline.
80 Million Tiny Images è offline, le scuse del MIT
Il dataset, popolato da quasi 80 milioni di immagini raccolte da Google e impiegato per istruire gli algoritmi, è stato messo offline.

Nel 2006 il MIT ha messo a disposizione di tutti un dataset battezzato 80 Million Tiny Images composto da 79,3 milioni di immagini ottenute dall’archivio di Google, suddivise in circa 75.000 categorie ed etichettate con tag o descrizioni legate al loro contenuto. Una risorsa offerta a coloro impegnati nello sviluppo di algoritmi in grado di interpretare in modo automatico quanto presente ad esempio in una fotografia.

MIT, dataset, IA e razzismo: 80 Million Tiny Images

È stato fin qui impiegato da parecchi team al lavoro su progetti di intelligenza artificiale e machine learning nonché come benchmark per valutare l’efficacia delle tecnologie di computer vision. Alcuni recenti report hanno però fatto emergere quanto i sistemi così istruiti siano responsabili di bias che mostrano il fianco a razzismo e discriminazione: alle persone di pelle scura vengono spesso associati termini offensivi e lo stesso vale per le immagini che raffigurano donne.

Raccolte le segnalazioni, il Massachusetts Institute of Technology ha deciso di mettere offline l’archivio, scusandosi. Riportiamo di seguito in forma tradotta alcuni passaggi del messaggio firmato da tre dei responsabili del progetto.

È stato portato alla nostra attenzione che il dataset Tiny Images contiene alcuni termini dispregiativi così come categorie e immagini offensive. È la conseguenza della raccolta automatica dei dati basata sulle parole del database WordNet. Siamo profondamente dispiaciuti per questo e ci scusiamo con chi ne è stato colpito.

80 Million Tiny Images è stato creato 14 anni fa partendo da un elenco di 53.464 parole prelevate da WordNet per scaricare poi le immagini corrispondenti dal motore di ricerca, utilizzando i filtri disponibili all’epoca. La risoluzione dei file archiviati è molto piccola (da qui il nome), pari a 32×32 pixel.

Non si commetta l’errore di pensare che distorsioni di questo tipo nella fase di istruzione degli algoritmi non possano portare a conseguenze concrete. Ne abbiamo scritto più volte anche su queste pagine trattando notizie riguardanti sistemi per il riconoscimento facciale e di recente persino un’IA creata al fine di prevedere l’attitudine a delinquere di un soggetto esclusivamente sulla base della sua analisi fisiognomica.

Fonte: MIT
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
2 lug 2020
Link copiato negli appunti