Amazon: CSAM nei dati di addestramento, fonte ignota

Amazon ha segnalato migliaia di contenuti pedopornografici (CSAM) al National Center for Missing and Exploited Children (NCMEC) negli Stati Uniti. Erano presenti nei dati di addestramento dei suoi modelli di intelligenza artificiale. L’azienda di Seattle non ha tuttavia comunicato la fonte, impedendo quindi alle forze dell’ordine di cercare i colpevoli e proteggere le vittime.

Dati non usati per l’addestramento dei modelli AI

Come è noto, le aziende che sviluppano modelli AI creano enormi archivi di dati raccolti su Internet (spesso materiale protetto dal diritto d’autore). Tra questi dati finiscono anche i contenuti pubblicati sui siti frequentati da pedofili e deepfake di minori generati da chatbot o tool dedicati. Il NCMEC ha rilevato un incremento notevole delle segnalazioni: circa 4.700 nel 2023, circa 67.000 nel 2024 e oltre 1 milione nel 2025.

Il NCMEC ha svelato che la maggioranza dei CSAM (Child Sexual Abuse Material) relativi al 2025 è stato segnalato da Amazon. L’azienda di Seattle non ha ovviamente usato immagini e video di minori per l’addestramento dei modelli. Tuttavia, a differenza di altri provider, non ha fornito dettagli sull’origine dei contenuti.

Non risultano casi di generazione di contenuti sessuali con minori tramite i modelli di Amazon, in quanto il tool di rilevazione automatica è impostato con un soglia elevata (quindi ci sono molti falsi positivi). L’assenza di informazioni sulla fonte ha tuttavia ostacolato il lavoro delle forze dell’ordine. Non è possibile individuare l’origine, rimuovere i contenuti, scoprire i pedofili e proteggere i minori.

Un portavoce di Amazon ha dichiarato:

Quando abbiamo istituito questo canale di segnalazione nel 2024, abbiamo informato il NCMEC che non avremmo avuto informazioni sufficienti per creare report fruibili, a causa della natura di terze parti dei dati scansionati. Il canale separato garantisce che questi report non diluiscano l’efficacia degli altri canali di segnalazione. A causa delle modalità di provenienza di questi dati, non disponiamo dei dati necessari per creare un report fruibile. Sebbene le nostre misure di sicurezza proattive non possano fornire nei report NCMEC gli stessi dettagli degli strumenti rivolti ai consumatori, manteniamo il nostro impegno per un’intelligenza artificiale responsabile e continueremo a lavorare per prevenire i CSAM.

L’azienda di Seattle non ha spiegato come sono stati ottenuti i dati da terze parti e perché non può fornire i dettagli al NCMEC. Diversi esperti sottolineano che le aziende AI dovrebbero essere più trasparenti. Questo è uno degli obblighi previsti dall’AI Act in Europa.

Fonte: Bloomberg

Luca Colantuoni

Pubblicato il 1 feb 2026