Common Voice
https://voice.mozilla.org è un progetto di crowdfunding di Mozilla. Non si parla di soldi ma di raccolta di dati in questo caso testuali e vocali basati per lingua.
Mozilla ha realizzato un progetto open source di riconoscimento vocale
https://github.com/mozilla/DeepSpeech basato su Machine Learning, ovvero ha bisogno di dati reali per poter imparare a riconoscere le varie lingue con le loro parole, pronunce e cosi via.
Per poter alimentare, si esatto ha bisogno di essere nutrito con la partecipazione di volontari che leggono del testo in una lingua. Una volta che ci sono centinaia di letture della stessa frase in una lingua il software si occuperà di trovare le somiglianze.
Nel trovare le somiglianze si parla di machine learning che imparerà a riconoscere le caratteristiche simili nella frase registrata, quindi è importante che partecipano più persone con accenti diversi per poter creare un modello unico per quella frase.
Con modello ci si riferisce ad uno schema di riconoscimento dei dati su cui il software poi un domani riuscirà a conoscere frasi che sente per la prima volta senza avere del testo scritto.
Ovviamente questo modello si basa non su una singola frase ma più frasi che hanno del testo anche in inglese (parole specifiche ad esempio come feedback), sigle (che noi pronunciamo in modo diverso spesso), lettere accentate e così via.
Questo modello è il prodotto di questo motore e progetto che viene reso poi pubblico con tutto il dataset di registrazioni audio fornite al progetto sotto licenza libera.
PerchéUn motore di riconoscimento vocale open source permette di non doversi appoggiare a servizi come Google o Siri che hanno il microfono sempre attivo e che comunicano con un server per poter usare il modello.
Aiuta per l'accessibilità per chi non può usare una tastiera od un mouse ad esempio per poter comunicare con un apparecchio digitale.
Per poter un domani avere un sistema Speech To Text integrato in Firefox o viceversa (già esistente
https://github.com/mozilla/tts) o di grammar checking (
https://xaero.app/ già sperimentato).
Per poter essere usati per qualunque progetto da quello scolastico a quello lavorativo senza limitazioni.
OggiAd oggi solo la lingua inglese ha un modello rilasciato e finale che ha una accuratezza molto alta,
https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/Il progetto ha lanciato il supporto ad oltre 20 lingue
https://blog.mozilla.org/blog/2018/06/07/parlez-vous-deutsch-rhagor-o-leisiau-i-common-voice/ tra cui l'italiano.
Ad oggi solamente 11 lingue sono pronte per la seconda fase.
La prima fase si tratta di raccogliere materiale sotto licenza Creative Common Zero o materiale proprio che si vuole rialsciare per il progetto senza nessuna reclamazione di eventuali diritti.
Ci sono già progetti open source che integrano DeepSpeech (il software di machine learning) e che utilizzano il dataset di lingua inglese che hanno un certo successo come Mycroft
https://mycroft.ai/ che può funzionare nel proprio computer senza internet.
L'affidabilità del modello ha bisogno di molti partecipanti con materiale testuale e vocale da molte persone (
https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error-rate/), quello inglese ha avuto una partecipazione di 20000 persone diverse. Inoltre per iniziare ad elaborare un modello sono richieste almeno 1000 ore di registrazione basate su queste frasi.
Prima faseLa prima fase è quella di avere del materiale in Italiano testuale da far leggere. Questo materiale deve essere creative commons zero o personale.
Significa pubblico dominio senza nessuna attribuzione, materiale senza licenza non va bene e deve essere recente.
Questo materiale non ha una revisione da parte del team Common Voice e Daniele con Saverio sta facendo questo lavoro (se altri vogliono aggiungersi siete i benvenuti naturalmente).
Questo materiale verrà diviso per riga utilizzando gli accapo, punti esclamativi/interrogativi/fine riga.
Ogni riga/frase per il progetto è oro perché più ce ne sono più il modello avrà materiale da poter analizzare.
Common Voice per sbloccare una lingua per la seconda fase richiede almeno 5000 frasi e la lingua italiana
ne ha 2700 per il momento.
Siamo nella prima fase ovvero la raccolta di materiale quindi eccovi qualche esempio:
- Tesi scolastiche/universitarie
- Altro materiale scolastico
- Libri/romanzi/racconti
- Testi giuridici/religiosi/tecnici
- Propri articoli/lavori
È stato fatto uno sprint mesi fa (
https://forum.mozillaitalia.org/index.php?topic=70826.0) dove diversi volontari hanno partecipato per la lingua italiana ma il materiale non era sufficiente. Questo materiale è stato già revisionato.
Ricordo caricando il materiale non verrà salvato chi ha partecipato a caricarlo e si perde ogni diritto sulla proprietà.
Io (Daniele) ho caricato ad esempio la mia tesi delle superiori (senza la parte matematica, dove c'erano formule varie che non si leggono e per il progetto non servono), caricato vecchi temi scolastici che avevo in digitale,
articoli pubblicati negli anni su vari siti, testo preso da note personali (anche delle nostre riunioni), testo dal manuale di Firefox OS che facemmo come comunità (senza le parti tecniche di programmazione), testo da Developers Italia che è CC0 (senza tecnicismi) e altro trovato in rete.
Come fare la selezione?- Linguaggio non troppo di parte
- Poche sigle
- Poche parole inglesi
- Parole che in italiano siano pronunciate correttamente
- Linguaggio moderno, niente promessi sposi per dire (ultimi 35 anni massimo)
Come partecipare alla prima fase?Caricate il vostro testo su
https://public.etherpad-mozilla.org/p/mozita-commonvoice-stringhe oppure mandate un email a mte90net@gmail.com (daniele) che si occuperà della revisione e di inviarle al progetto stesso.
Il riferimenti a materiale e sorgenti da caricare o verificare viene raccolto su
https://public.etherpad-mozilla.org/p/mozita-commonvoice-sources.
La revisione è necessaria per evitare che sia caricato materiale non conforme.
Seconda faseUna volta che l'italiano avrà questo volume di materiale la prima fase si chiude.
Si passerà a fare promozione in Italia e dove si parla italiano riguardo il progetto
https://voice.mozilla.org/it per far registrare la propria voce con le frasi prese casualmente.
Come partecipare alla seconda fase?Si fa sul sito di Common Voice scegliendo la lingua italiana, l'account non è obbligatorio ma serve per la classifica di chi partecipa.
Usando Telegram andate su
https://t.me/mozItaHUB e poi entrate nel canale Voglio diventare un volontario.
So di essere andato lungo ma ho preferito spiegare tutto così da poterci concentrare sull'attività ma naturalmente per ogni domanda sono qua!
Stato- Siamo a 100 frasi prima del 16 giugno
- Siamo a 995 frasi prima del 25 giugno
- Siamo a 2445 frasi prima del 26 giugno
- Siamo a 2736 frasi prima del 27 giugno
- Siamo a 4061 frasi prima del 28 giugno
- Siamo a 7550 frasi prima del 29 giugno
Habemus superatum materiale minimo!Grazie a tutti quelli che hanno partecipato, specialmente a Saverio per il lavoro che ha fatto!
Non ci fermeremo qui perché prima che carichino la nostra lingua possiamo continuare ad aggiungere frasi.