Dona la tua voce ai dataset Mozilla Common Voice

Dona la tua voce ai dataset Mozilla Common Voice

Mozilla sta cercando di alimentare un dataset di voci per addestrare gli algoritmi di machine learning sull'Italiano: si parte il 1 aprile.
Mozilla sta cercando di alimentare un dataset di voci per addestrare gli algoritmi di machine learning sull'Italiano: si parte il 1 aprile.

Vuoi prestare la tua voce alla ricerca? Dal 1 al 30 aprile ne hai la possibilità partecipando semplicemente all'iniziativa “Common Voice” di Mozillaper la raccolta di registrazioni vocali (scaricabili) di pubblico dominio utilizzabili in molti ambiti, principalmente in ambito di machine learning, per esempio per la creazione di assistenti vocali per il mondo dell'accessibilità“. Un apporto pro-bono, insomma, sapendo di poter fare qualcosa di buono semplicemente prestando la propria voce e tutto ciò che contiene.

L'Italiano, infatti, è composto di dialetti, accenti, inflessioni, sfumature infinite che lo rendono estremamente ricco e – al tempo stesso – particolarmente complesso in termini di campionatura e comprensione digitale. Per poter operare sulla lingua italiana servono molte ore di “parlato”, così che gli algoritmi di machine learning abbiano tutto quanto necessario per poter imparare ed elaborare. Il problema sta nell'assenza di dataset utilizzabili: Mozilla Italia ha voluto prendere in mano la situazione organizzando degli “sprint” (piccole maratone mensili), riuscendo a mettere da parte fin qui 180 ore di audio grazie al contributo di centinaia di persone.

Common Voice: dona la tua voce per il machine learning

Non solo è importante partecipare, ma è importante anche capire il perché:

In primis per migliorare il materiale della nostra lingua utilizzabile da ricercatori, studiosi ma anche in ambito digitale per programmi open-source o per nuovi prodotti che supportino l'italiano. Un esempio sono i “big” e i vari competitor commerciali che non supportano le lingue ritenute minoritarie, perché non hanno milioni di parlanti e quindi non frutterebbero sufficienti introiti. Purtroppo, la stessa cosa si presenta anche per la lingua italiana e per le sue cadenze e accenti, ma anche per i vari dialetti. A questo proposito, infatti, il progetto dovrebbe essere lanciato anche per le lingue sardo, veneto e siciliano per citarne alcune.

La ricchezza della lingua italiana sta nelle sue mille sfumature che, pur passando medesimi significati, molto raccontano anche a proposito del parlante, della sua provenienza. Le complicazioni dell'Italiano sono la sua stessa ricchezza, che va dunque conservata e accudita invece di appiattirla sotto i colpi di algoritmi superficiali e non sufficientemente addestrati.

Fino a oggi, come comunità Mozilla Italia, realizziamo un modello di machine learning per la lingua italiana realizzato sfruttando questo dataset Common Voice e aggregandolo con altri disponibile gratuitamente e liberamente, insieme a DeepSpeech (altro progetto open-source di Mozilla), disponibile su Github.

Abbiamo realizzato nel 2020 anche un developer contest per progetti che utilizzassero il modello; progetti ovviamente open-source e disponibili su Github.

Come partecipare

Per donare la propria voce è possibile partecipare al progetto tramite l'app CV Project. Qui il regolamento con tutte le istruzioni. Una serie di gadget Mozilla è a disposizione per coloro i quali daranno il proprio contributo, alimentando il dataset e consentendo al progetto di proseguire nel proprio lavoro.

Fonte: Mozilla
Link copiato negli appunti

Ti potrebbe interessare

30 03 2021
Link copiato negli appunti