C’è un modo per insegnare all’intelligenza artificiale a lavorare come un essere umano: mostrarle come lavorano gli esseri umani. Non con esempi inventati, ma roba vera. File Word pieni di errori di battitura, presentazioni PowerPoint con quella slide che non si allinea mai, fogli Excel con formule che funzionano per miracolo. Il lavoro reale, insomma.
E secondo un’inchiesta di Wired, è esattamente quello che OpenAI e la società di addestramento dati Handshake AI starebbero chiedendo ai loro collaboratori esterni: caricare campioni di lavoro vero, svolto in impieghi passati e attuali. Non dei riassunti o delle descrizioni. I file originali, quelli creati per altri datori di lavoro, magari sotto contratti che includevano clausole di riservatezza.
OpenAI chiede ai collaboratori esterni di caricare file di lavoro veri per addestrare l’AI
Secondo le fonti di Wired, OpenAI avrebbe chiesto ai collaboratori di descrivere i lavori reali che hanno svolto e di caricare esempi concreti, non simulazioni, di attività effettivamente realizzate sul campo. Quindi, documenti Word con strategie aziendali, PDF di proposte commerciali, presentazioni PowerPoint per clienti reali, fogli Excel con dati finanziari, immagini di progetti grafici, ecc. Tutto materiale che, in teoria, dovrebbe restare nell’azienda per cui è stato creato.
OpenAI, ovviamente, dice ai collaboratori di cancellare le informazioni proprietarie e i dati personali identificabili prima del caricamento. E per aiutarli, mette anche a disposizione uno strumento di ChatGPT chiamato “Superstar Scrubbing”, che dovrebbe “pulire” i file dalle informazioni sensibili.
Cancellare dati sensibili non è come passare un correttore su un documento. Bisogna capire quali informazioni, anche senza nomi espliciti, potrebbero rivelare strategie aziendali, dati finanziari, metodologie proprietarie, o semplicemente danneggiare qualcuno se pubblicate.
Un grafico che mostra la crescita di un prodotto specifico potrebbe non contenere nomi, ma rivelare informazioni commerciali sensibili. Una presentazione PowerPoint potrebbe sembrare generica dopo aver tolto il logo aziendale, ma contenere approcci strategici sviluppati internamente. E OpenAI si aspetta che i collaboratori, molti dei quali probabilmente lavorano part-time da casa per arrotondare, riescano a identificare e rimuovere tutto questo prima di premere “carica”.
Decidere cosa sia un’informazione proprietaria non è così semplice. Eppure, OpenAI sbologna questa decisione cruciale ai collaboratori esterni. Gente pagata per produrre dati di addestramento, non avvocati specializzati in proprietà intellettuale. E se qualcuno sbaglia, se carica un file che contiene informazioni sensibili che non ha riconosciuto come tali, il problema diventa di OpenAI. È un bel rischio!
Quando l’addestramento AI vale una causa legale
L’intenzione di OpenAI è chiara: generare dati di addestramento di alta qualità, con l’obiettivo di permettere ai modelli futuri di automatizzare più mansioni d’ufficio e attività professionali.
Del resto, se l’AI deve imparare a scrivere report aziendali realistici, meglio farle vedere report aziendali veri. Per creare presentazioni efficaci, bisogna mostrarle presentazioni reali. Affinché generi codice di qualità professionale, è necessario darle accesso a repository di progetti reali. Il problema è che quel materiale appartiene a qualcun altro. Le aziende che hanno pagato quei dipendenti per produrre quel lavoro potrebbero avere qualcosa da ridire sul fatto che finisca nell’addestramento di un modello AI commerciale.
Il silenzio di OpenAI
Quando Wired ha interpellato OpenAI, ma l’azienda non ha voluto rilasciare alcun commento. Che è la risposta standard quando non si può negare qualcosa, e non si vuole nemmeno confermare.
Il fatto è che le aziende AI hanno esaurito Internet, o almeno, hanno già raschiato tutto quello che potevano legalmente (e illegalmente) raschiare. Ora servono dati nuovi, freschi, di alta qualità.
E il lavoro professionale reale è esattamente quel tipo di dato. Autentico, fatto da umani che risolvono problemi veri. Ma questo tipo di dati ha un costo. Non solo economico, ma anche legale. Ogni file caricato è una potenziale causa per violazione di proprietà intellettuale. Ogni collaboratore che carica materiale sensibile è un rischio che OpenAI sta assumendo.
E a giudicare dall’approccio, sembra che stia scommettendo sul fatto che i benefici superino i rischi. O forse spera semplicemente che la maggior parte delle violazioni passi inosservata abbastanza a lungo da rendere i modelli migliori prima che arrivino le lettere degli avvocati.