Il mondo degli algoritmi

Forse non ne siamo ancora completamente consapevoli, ma siamo circondati dal machine learning . In che modo? Quando interroghiamo un motore di ricerca è grazie al machine learning che lo stesso decide quali risultati e quali inserzioni pubblicitarie mostrarci. Quando acquistiamo un libro o un disco su Amazon, un sistema di machine learning cercherà di consigliarci altri acquisti sulla base dei gusti appena espressi. Lo stesso fa Facebook per decidere che aggiornamenti mostrare. Ogni volta che usiamo un computer o uno smartphone, ci sono buone possibilità il machine learning entri in funzione.

Se una volta per convincere un computer a fare qualcosa -una somma o una prenotazione aerea- bisognava scrivere un algoritmo che gli spiegasse come fare nei minimi dettagli, ora esistono speciali algoritmi che capiscono dagli stessi dati quello che gli stiamo chiedendo. E più dati ci sono, più soddisfacente sarà il risultato. Questo vale per il termostato che regola la temperatura in casa, per il word processor che corregge i testi, per il cellulare che compone automaticamente le parole che vogliamo scrivere fin dalle prime lettere e così via. Il machine learning interviene ormai quasi in ogni aspetto della nostra vita.

Fra le applicazioni più curiose del machine learning c’è la Author Attribution ossia scoprire, o individuare, il vero autore di un testo. Il caso più eclatante di cui siamo stati testimoni negli ultimi tempi è quello relativo alla paternità dei testi della scrittrice Elena Ferrante sui cui si è lavorato sia con modelli matematici che con l’analisi linguistica.

Creare un’intelligenza artificiale?
Chi si occupa in Italia di author attribution su base matematica, utilizza un database di alcuni scrittori noti e il testo a cui non si riesce a dare una certa attribuzione, analizzando la ricorrenza di certe strutture.
Vittorio Loreto, fisico matematico della Sapienza di Roma, anni fa analizzò i testi della Ferrante e ipotizzò, già all’epoca, nome di Starnone, marito della scrittrice. Su questo progetto lavora oggi il matematico Mirko Degli Esposti , professore ordinario e Prorettore vicario dell’Università di Bologna che recentemente ha lavorato sul diario postumo di Eugenio Montale, una raccolta di 84 liriche, insieme al collega Dario Benedetto (Dipartimento di Matematica, La Sapienza, Roma).

Prof. Degli Esposti, quali sono gli esiti della vostra indagine sui diari postumi di Eugenio Montale?
L’analisi filologica, storica e grafologica del filologo Bolognese Federico Condello impone serissimi dubbi sull’autenticità del Diario di Montale. La nostra analisi matematica, che non può essere definitiva, certamente è coerente e supporta questo dubbio evidenziato dall’analisi filologica. I nostri metodi matematici, mostrano, direi chiaramente, che le oltre 80 poesie postume attribuite al poeta, difficilmente si possono definire un lavoro integro di Eugenio Montale. L’analisi è stata effettuata tramite algoritmi che definiscono le distanze tra testi, cioè scoprono quanto i testi – anche di argomenti diversi – sono simili da un punto di vista stilistico.
Un primo algoritmo si basa sulla frequenza di sequenze brevi di caratteri consecutivi (i cosiddetti n-grammi ). Un secondo algoritmo utilizzato è quello definito ” di compressione “, del tutto simile a quello che si usa per zippare i file. Comprimere un file, vuol dire trovare delle regole, ossia rendere più piccolo qualcosa senza perdere informazioni. Se, per esempio, si comprime l’Enciclopedia britannica, si ottiene un file codificato che è molto più piccolo ma che non ha perso informazione. Essenzialmente, l’algoritmo di compressione, mentre legge il testo, impara delle regole in esso contenute e le usa per codificare l’informazione in una maniera più efficiente. In pochissime parole, quello che noi facciamo è comprimere uno scritto incognito con quelle informazioni che ci provengono da un dato autore a noi noto. E tanto più quello che comprimiamo diventa piccolo tanto più è simile all’autore. C’è un margine di rischio, non è un metodo definitivo ma certamente funziona meglio di tanti altri metodi linguistici basati esclusivamente sulle parole. Si prende il testo di un autore che vogliamo confrontare, prendiamo per esempio Manzoni, e il testo incognito che vogliamo studiare. Si mettono quindi uno dietro all’altro e si comprimono. Quanto più il testo incognito è vicino all’autore scelto, tanto più tutto questo si comprime. Poi, dopo il Manzoni, si considerano altri autori e si procede con lo stesso metodo: ogni volta prendendo il testo incognito e comprimendolo dietro all’autore noto che è stato scelto. L’autore che comprime di più, è verosimilmente l’autore dello scritto incognito. In realtà, la procedura è un può più complicata, lavoriamo su frammenti di testi e usiamo un po’ di statistica, ma essenzialmente l’idea è questa. Inizialmente abbiamo preso un certo numero di autori noti, estratto un pezzo delle loro opere, e adottato questo procedimento per riconoscerle in una serie di test controllati. Ha funzionato. Lo abbiamo poi sperimentato nell’attribuzione di articoli giornalistici non firmati ma probabilmente Gramsciani, su quelli dei Padri della Chiesa Basilio e Gregorio (in quanto c’era l’incertezza tra questi due sulla paternità di una lettera), l’abbiamo fatto con Montale. In tutti questi casi poi abbiamo consegnato i risultati agli esperti dei rispettivi autori, per lasciare giustamente a loro il giudizio finale.

Che differenza c’è tra Machine e Deep learning?
Negli ultimi dieci anni l’intelligenza artificiale e il machine learning hanno mosso passi da gigante, diventando ormai parte integrante di molti prodotti tecnologici che fanno parte della nostra vita di tutti i giorni. Una delle nuove tecniche che ha reso possibile questo progresso è il cosiddetto Deep Learning , un insieme di metodologie che sfruttano reti neurali artificiali per estrarre informazioni dai dati e per “imparare” dei compiti che vengono a loro assegnati. Un’applicazione di Deep Learning non funziona come la tecnica di Author Attribution che abbiamo spiegato prima: le Intelligenze Artificiali infatti “imparano” direttamente le caratteristiche di un autore, features , che possono scappare alla nostra intelligenza umana, ma che a loro volta sono essenziali per individuare un certo autore. Con il Deep Learning è possibile chiedere a una macchina di leggere tutti i libri di un certo autore, imparandone quindi le caratteristiche stilistiche, e di generare un nuovo testo, che sarà diverso dai precedenti ma simile nello stile. La stessa cosa può essere fatto con la musica, come dimostrato dal centro di ricerca della Sony di Parigi con le canzoni dei Beatles. La stessa cosa la stanno testando con le sceneggiature dei film o i loro trailer. Pochi mesi fa per la prima volta nella storia del cinema, un trailer è stato concepito da un’intelligenza artificiale tramite un robot di nome Watson sviluppato dalla IBM Research, che ha analizzato centinaia di trailer di pellicole di genere thriller e horror, dopodiché ha selezionato quelli che ha ritenuto i momenti migliori presenti all’interno della pellicola Morgan e li ha quindi suggeriti a un montatore, che li ha messi insieme. Un altro esperimento recente, estremamente interessante, è quello che ha permesso a un algoritmo basato sul deep learning di imparare lo stile di Rembrandt e dipingere un nuovo quadro, mai visto prima e non un semplice collage, che “sembra” a tutti gli effetti realmente dipinto dal pittore olandese, fin nei minimi dettagli delle singole pennellate. Al momento qui a Bologna, stiamo lavorando sulla generazione dei testi usando tecniche di Deep learning per far apprendere alla macchine lo stile di certi autori e generare testi. Si generano piccoli testi che non hanno un senso compiuto, sono frasi sintatticamente perfette ma senza una semantica, non correlabili tra loro. La vera sfida è come trovare una semantica che metta in sequenza queste frasi con un senso compiuto, che crei una storia.

Come definirebbe una rete neurale?
La rete neurale è un modello ultra semplificato del cervello umano. Un’architettura software basata su un modello matematico. Una rete neurale riceve in ingresso una certa informazione, ad esempio un testo o un’immagine, la processa e la elabora tramite strati di celle tra loro interconnesse chiamate neuroni, e produce un’uscita. Ad esempio, possiamo pensare ad una rete neurale in grado di dire che oggetto è rappresentato in un’immagine. Se forniamo alla rete un database accoppiate con le uscite desiderate, ovvero con l’informazione relativa agli oggetti presenti in ciascuna immagine, allora la rete può imparare da questo insieme, cercando di replicarne il meccanismo, e imparando quindi a “predire” cosa c’è in un’immagine mai vista prima. E può anche essere in grado di “generare” nuove immagini, avendone viste un grande insieme in precedenza.
Facciamo un esempio pratico di uso frequente come l’applicazione Prisma : al suo interno l’app contiene una serie di informazioni relative a stili di pittura e di grafica. Sottoponendogli un’immagine, l’app è in grado di riprodurre la stessa come se fosse stata dipinta da Van Gogh o disegnata da Andy Warhol. Questo perché al suo interno contiene un database di tutte queste informazioni e ha imparato a utilizzarlo. Un altro programma che usa il Deep Learning è Spotify : in base a un gusto musicale, è in grado di costruire una playlist o addirittura una radio dedicata, sulla base del tipo di musica segnalato. Scelta, quella di Spotify, probabilmente basata anche sul “sociale”, cioè analizzando le preferenze musicali di chi in passato ha selezionato lo stesso brano.

Il mistero Elena Ferrante
Non era necessario andare a controllare le dichiarazioni dei redditi dei presunti autori per comprendere che i libri di Elena Ferrante, la scrittrice più misteriosa di Italia, erano frutto di due diversi autori. Un’ipotesi non del tutto confermata, ma fortemente sostenuta dallo studio compiuto dal Gruppo di analisi di linguistica quantitativa di Padova, coordinato dalla Professoressa associata confermata di Statistica sociale Arjuna Tuzzi – di seguito intervistata – con il professor Michele Cortellazzo.

Quale metodologia di indagine da un punto di vista matematico (algoritmo?) avete adottato per questa indagine?
Abbiamo utilizzato una versione modificata del calcolo della distanza intertestuale proposta da Labbé. La distanza viene misurata per ogni coppia di romanzi come nella versione originale ma il calcolo è basato su replicazioni, cioè su misure ripetute della distanza su coppie di porzioni di testo di uguale dimensione.

Quali testi avete messo a confronto e con quale modalità?
Abbiamo svolto questa prima parte della ricerca su un corpus di 100 romanzi pubblicati negli ultimi trent’anni (1985-2014). Si tratta di opere di Elena Ferrante, di autori della stessa area geografica (Napoli e dintorni), di autori sospettati di essere Elena Ferrante e di romanzi che hanno ricevuto premi, venduto molto, ricevuto il plauso della critica. Al momento il corpus è provvisorio perché è in corso di aggiornamento con ulteriori opere.

Pensate di aver raggiunto un risultato netto o abbastanza verosimile?
I risultati ci dicono che, in termini di distanza intertestuale, l’autore più vicino a Elena Ferrante tra quelli presi in considerazione in questa analisi è Domenico Starnone.

Quale è la conclusione a cui siete giunti?
Dobbiamo approfondire questa vicinanza di Elena Ferrante a Domenico Starnone e dobbiamo cominciare a prendere in considerazione materiali diversi dai romanzi per poter valutare anche gli scritti di autori che non hanno pubblicato romanzi con il loro nome.

Da un punto di vista linguistico quali sono le discrepanze riscontrate, che vi hanno fatto propendere per l’ipotesi che si tratti di più di un autore o di un autore di sesso diverso da quello dichiarato?
Nella nostra ricerca non abbiamo ancora esplorato la possibilità che si tratti di opere scritte a più mani ma certamente non lo escludiamo. Questi primi risultati mostrano, però, una particolare vicinanza tra Elena Ferrante e Domenico Starnone, che si riverbera in precise scelte lessicali (per esempio in Ferrante e Starnone, e solo in loro, compaiono parole come malodore ). Per quanto riguarda il genere, la distanza intertestuale ci dice che Elena Ferrante è lontana dalle autrici che sono state prese in considerazione in questa analisi.

Musica e Intelligenza Artificiale
La Sony Computer Science Laboratory di Parigi, sta sviluppando un sistema di algoritmi che può creare canzoni, basate sull’adattamento di musica già esistente.
La creazione della canzone comincia da un data base contenente oltre 13 canzoni, dal quale l’utente può scegliere quelle che contengono il tipo di suono o trasmettano le sensazioni che vorrebbe trovare nella nuova canzone. L’algoritmo analizza le caratteristiche delle canzoni e le proprietà statistiche relative al ritmo, all’armonia e all’intonazione. Così apprende, per esempio, che quali note funzionano con un certo accordo, quale accordo viene generalmente dopo un altro accordo, quali note dopo certe note eccetera: da questa analisi, l’algoritmo crea quindi uno spartito con simili caratteristiche. La canzone Daddy’s Car , rilasciata a settembre 2016, è stata creata nello stile dei Beatles dopo che l’algoritmo aveva analizzato circa 45 canzoni della band.

Secondo Sony, il sistema, chiamato Flow Machine , svolge la funzione di espansione del processo di scrittura delle canzoni, sperimentando stili e mischiando suoni. Il Direttore della Sony di Parigi, François Pashet afferma di non comprendere l’anatema che molti artisti hanno lanciato contro la creazione artificiale che, secondo lui, può invece rivelarsi uno strumento molto utile. “Questo algoritmo -afferma- permette sperimentazioni più veloci, che altrimenti sarebbero lunghe e improduttive. Per questo sono convinto che possa aiutare la creatività.

Sony ha iniziato a sviluppare Flow Machine nel 2012 creando un algoritmo per ogni funzione: uno per la partitura, uno per gli arrangiamenti, uno per l’orchestrazione, uno che simula la performance e indica la presenza degli strumenti necessari per raggiungere i risultati (quanti violini, percussioni, fiati ecc.). Pashet afferma che l’utilizzo degli algoritmi assicura l’unicità delle canzoni e serve a evitare accuse di plagio. Il compositore francese Benoit Carrè assicura che l’utilizzo degli algoritmi nella musica non la impoveriscono in termini di emozione, ma collaborano al processo creativo. “Possiamo trovare un’anima in qualsiasi tipo di musica – afferma Carrè – musica generata da un computer, musica che, come negli anni ’80, era prodotta da un sintetizzatore. Quello che l’algorismo compie, è quindi un lavoro di adempimento delle istruzioni che gli vengono date. Non eseguirà lavori in autonomia, ma sempre in accordo con le scelte e i gusti selezionati da chi lo sta utilizzando. Uno strumento che non mortifica la creatività umana ma aiuta ad amplificarla. L’unico problema che si sta presentando al momento, è come verrà identificata la paternità del brano”.

Anna Magli

Pubblicato il 30 gen 2017

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
30 gen 2017

Link copiato negli appunti