Tra i contenuti più condivisi su Facebook ci sono ovviamente le foto. Purtroppo non tutti gli utenti possono vederle, quindi l’azienda di Menlo Park ha sviluppato nel 2016 una tecnologia, denominata ATT (Automatic Alternative Text, testo alternativo automatico in italiano), che permette di generare la descrizione dell’immagine. Questa tecnologia è stata ora migliorata grazie all’intelligenza artificiale.

Facebook: IA per “vedere” le immagini

Ipovedenti e non vedenti possono utilizzare gli screen reader per conoscere il contenuto delle immagini attraverso una voce sintetica, ma solo se sono state pubblicate con l’attributo “alt text“. Dato che molte foto sono prive del testo alternativo, Facebook ha sviluppato la tecnologia ATT che sfrutta il riconoscimento degli oggetti per generare la descrizione delle immagini.

La versione più recente della tecnologia è in grado di rilevare un numero di contenuti fino a dieci volte superiore e genera una descrizione più dettagliata con l’indicazione di attività, simboli, tipi di animali e altro, ad esempio “Può essere un selfie di due persone, all’aperto, con la Torre Pendente di Pisa“. Sono state inoltre aggiunte informazioni sulla posizione e le dimensioni relative degli elementi, ad esempio “Può essere un’immagine di cinque persone, due al centro e tre situate ai lati“.

La prima versione di ATT è stata sviluppata usando dati etichettati dall’uomo che servivano per addestrare la rete neurale convoluzionale. Il modello poteva però riconoscere solo 100 concetti, come albero, montagna e all’aperto. La versione attuale utilizza invece un modello basato su dati scarsamente supervisionati, ovvero miliardi di immagini pubbliche di Instagram, provenienti da diverse aree geografiche, e i corrispondenti hashtag scritti in varie lingue.

I vari miglioramenti hanno permesso di riconoscere oltre 1.200 concetti. Facebook ha infine modificato la tecnologia ATT per fornire una descrizione predefinita per tutte le foto e una più dettagliata per le foto di interesse specifico, come quelle di amici e familiari. Le descrizioni sono oggi disponibili in 45 lingue.