Riconoscimento vocale in salsa open source

VoxForge vuole coinvolgere gli utenti per realizzare una grande archivio audio-vocale con licenza GPL; Sphinx, HTK, CAVS e Julius disporranno così di risorse open senza restrizioni licenziatarie
VoxForge vuole coinvolgere gli utenti per realizzare una grande archivio audio-vocale con licenza GPL; Sphinx, HTK, CAVS e Julius disporranno così di risorse open senza restrizioni licenziatarie

Una delle ultime novità nel campo del riconoscimento vocale è rappresentata dal progetto VoxForge . L’obiettivo è quello di raccogliere il maggior numero di trascrizioni audio (Transcribed Speech Audio) sotto licenza GPL , da utilizzare per la creazione di Acoustic Model , fondamentali per gli Open Source Speech Recognition Engines .

Si tratta, insomma, di un archivio audio-vocale GPL per applicazioni di riconoscimento vocale come Sphinx , HTK , CAVS e Julius . Un progetto piuttosto rilevante se si considera che in materia di sintesi e riconoscimento vocale le tecnologie proprietarie continuano a farla da padrone.

Gli Speech Recognition Engines richiedono due tipi di file per riconoscere il parlato: Acoustic Model e Language Model (o Grammar file). I primi vengono creati utilizzando un gran numero di registrazioni vocali e le loro trascrizioni (Speech Corpus o Corpora), organizzate in rappresentazioni statistiche del suono che compongono ogni parola. I Language Model, invece, associano le probabilità di interpretazione del suono correlate ad alcune sequenze di parole. I Grammar file dispongono invece combinazioni predefinite di parole, declinate a grammatiche specifiche.

La maggior parte degli Acoustic Model utilizzati dai sistemi di riconoscimento vocale open source sfruttano librerie protette. Non permettono, infatti, l’accesso alla sorgente audio utilizzata, o se lo fanno vi sono delle restrizioni licenziatarie che ne autorizzano solo l’uso personale o per la ricerca. Dato che non esistono Corpora gratuiti che possano essere utilizzati per creare Acoustic Models, il progetto VoxForge si propone quindi di ovviare al problema coinvolgendo direttamente gli utenti.

La licenza GPL permetterà così alla comunità open di utilizzare liberamente le sorgenti e distribuire Acoustic Models senza restrizioni. Sul sito ufficiale del progetto sono disponibili le applicazioni, da scaricare, per partecipare all’iniziativa. La compatibilità è certificata per piattaforme Linux e Microsoft Windows.

Dario d’Elia

Link copiato negli appunti

Ti potrebbe interessare

11 10 2006
Link copiato negli appunti