Autore Topic: Raccolta stringhe per Common Voice (Letto 12946 volte)

Mte90 · « **il:** 24 Giugno 2018 21:04:20 »

Common Voice https://voice.mozilla.org è un progetto di crowdfunding di Mozilla. Non si parla di soldi ma di raccolta di dati in questo caso testuali e vocali basati per lingua.
Mozilla ha realizzato un progetto open source di riconoscimento vocale https://github.com/mozilla/DeepSpeech basato su Machine Learning, ovvero ha bisogno di dati reali per poter imparare a riconoscere le varie lingue con le loro parole, pronunce e cosi via.
Per poter alimentare, si esatto ha bisogno di essere nutrito con la partecipazione di volontari che leggono del testo in una lingua. Una volta che ci sono centinaia di letture della stessa frase in una lingua il software si occuperà di trovare le somiglianze.
Nel trovare le somiglianze si parla di machine learning che imparerà a riconoscere le caratteristiche simili nella frase registrata, quindi è importante che partecipano più persone con accenti diversi per poter creare un modello unico per quella frase.
Con modello ci si riferisce ad uno schema di riconoscimento dei dati su cui il software poi un domani riuscirà a conoscere frasi che sente per la prima volta senza avere del testo scritto.
Ovviamente questo modello si basa non su una singola frase ma più frasi che hanno del testo anche in inglese (parole specifiche ad esempio come feedback), sigle (che noi pronunciamo in modo diverso spesso), lettere accentate e così via.
Questo modello è il prodotto di questo motore e progetto che viene reso poi pubblico con tutto il dataset di registrazioni audio fornite al progetto sotto licenza libera.

Perché

Un motore di riconoscimento vocale open source permette di non doversi appoggiare a servizi come Google o Siri che hanno il microfono sempre attivo e che comunicano con un server per poter usare il modello.
Aiuta per l'accessibilità per chi non può usare una tastiera od un mouse ad esempio per poter comunicare con un apparecchio digitale.
Per poter un domani avere un sistema Speech To Text integrato in Firefox o viceversa (già esistente https://github.com/mozilla/tts) o di grammar checking (https://xaero.app/ già sperimentato).
Per poter essere usati per qualunque progetto da quello scolastico a quello lavorativo senza limitazioni.

Oggi

Ad oggi solo la lingua inglese ha un modello rilasciato e finale che ha una accuratezza molto alta, https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
Il progetto ha lanciato il supporto ad oltre 20 lingue https://blog.mozilla.org/blog/2018/06/07/parlez-vous-deutsch-rhagor-o-leisiau-i-common-voice/ tra cui l'italiano.
Ad oggi solamente 11 lingue sono pronte per la seconda fase.
La prima fase si tratta di raccogliere materiale sotto licenza Creative Common Zero o materiale proprio che si vuole rialsciare per il progetto senza nessuna reclamazione di eventuali diritti.
Ci sono già progetti open source che integrano DeepSpeech (il software di machine learning) e che utilizzano il dataset di lingua inglese che hanno un certo successo come Mycroft https://mycroft.ai/ che può funzionare nel proprio computer senza internet.
L'affidabilità del modello ha bisogno di molti partecipanti con materiale testuale e vocale da molte persone (https://hacks.mozilla.org/2017/11/a-journey-to-10-word-error-rate/), quello inglese ha avuto una partecipazione di 20000 persone diverse. Inoltre per iniziare ad elaborare un modello sono richieste almeno 1000 ore di registrazione basate su queste frasi.

Prima fase

La prima fase è quella di avere del materiale in Italiano testuale da far leggere. Questo materiale deve essere creative commons zero o personale.
Significa pubblico dominio senza nessuna attribuzione, materiale senza licenza non va bene e deve essere recente.
Questo materiale non ha una revisione da parte del team Common Voice e Daniele con Saverio sta facendo questo lavoro (se altri vogliono aggiungersi siete i benvenuti naturalmente).
Questo materiale verrà diviso per riga utilizzando gli accapo, punti esclamativi/interrogativi/fine riga.
Ogni riga/frase per il progetto è oro perché più ce ne sono più il modello avrà materiale da poter analizzare.
Common Voice per sbloccare una lingua per la seconda fase richiede almeno 5000 frasi e la lingua italiana ~~ne ha 2700 per il momento~~.
Siamo nella prima fase ovvero la raccolta di materiale quindi eccovi qualche esempio:

Tesi scolastiche/universitarie
Altro materiale scolastico
Libri/romanzi/racconti
Testi giuridici/religiosi/tecnici
Propri articoli/lavori

È stato fatto uno sprint mesi fa (https://forum.mozillaitalia.org/index.php?topic=70826.0) dove diversi volontari hanno partecipato per la lingua italiana ma il materiale non era sufficiente. Questo materiale è stato già revisionato.
Ricordo caricando il materiale non verrà salvato chi ha partecipato a caricarlo e si perde ogni diritto sulla proprietà.

Io (Daniele) ho caricato ad esempio la mia tesi delle superiori (senza la parte matematica, dove c'erano formule varie che non si leggono e per il progetto non servono), caricato vecchi temi scolastici che avevo in digitale,
articoli pubblicati negli anni su vari siti, testo preso da note personali (anche delle nostre riunioni), testo dal manuale di Firefox OS che facemmo come comunità (senza le parti tecniche di programmazione), testo da Developers Italia che è CC0 (senza tecnicismi) e altro trovato in rete.

Come fare la selezione?

Linguaggio non troppo di parte
Poche sigle
Poche parole inglesi
Parole che in italiano siano pronunciate correttamente
Linguaggio moderno, niente promessi sposi per dire (ultimi 35 anni massimo)

Come partecipare alla prima fase?

Caricate il vostro testo su https://public.etherpad-mozilla.org/p/mozita-commonvoice-stringhe oppure mandate un email a mte90net@gmail.com (daniele) che si occuperà della revisione e di inviarle al progetto stesso.
Il riferimenti a materiale e sorgenti da caricare o verificare viene raccolto su https://public.etherpad-mozilla.org/p/mozita-commonvoice-sources.
La revisione è necessaria per evitare che sia caricato materiale non conforme.

Seconda fase

Una volta che l'italiano avrà questo volume di materiale la prima fase si chiude.
Si passerà a fare promozione in Italia e dove si parla italiano riguardo il progetto https://voice.mozilla.org/it per far registrare la propria voce con le frasi prese casualmente.

Come partecipare alla seconda fase?

Si fa sul sito di Common Voice scegliendo la lingua italiana, l'account non è obbligatorio ma serve per la classifica di chi partecipa.

Usando Telegram andate su https://t.me/mozItaHUB e poi entrate nel canale Voglio diventare un volontario.

So di essere andato lungo ma ho preferito spiegare tutto così da poterci concentrare sull'attività ma naturalmente per ogni domanda sono qua!

Stato

Siamo a 100 frasi prima del 16 giugno
Siamo a 995 frasi prima del 25 giugno
Siamo a 2445 frasi prima del 26 giugno
Siamo a 2736 frasi prima del 27 giugno
Siamo a 4061 frasi prima del 28 giugno
Siamo a 7550 frasi prima del 29 giugno

Habemus superatum materiale minimo!

Grazie a tutti quelli che hanno partecipato, specialmente a Saverio per il lavoro che ha fatto!
Non ci fermeremo qui perché prima che carichino la nostra lingua possiamo continuare ad aggiungere frasi.

Mte90 · « **Risposta #1 il:** 29 Giugno 2018 12:18:28 »

L'etherpad per raccogliere le stringhe non è più necessario perche le frasi ora sono in attesa di essere approvate dal progetto Common Voice.

Potete trovarle su https://github.com/mozilla/voice-web/pull/1176 e contribuire tramite GitHub per altre.

Facendo una pulizia di doppioni siamo arrivati a 7443 frasi in italiano.

Winfox · « **Risposta #2 il:** 29 Giugno 2018 17:13:28 »

Ellamiseria: complimenti a te e a Saverio per la mole di frasi caricate.

Sav22999 · « **Risposta #3 il:** 01 Luglio 2018 10:20:42 »

https://github.com/MozillaItalia/voice-web/blob/master/server/data/it/frasi.txt questo è il link per accedere alle frasi dal repo di mozillaitalia.

Ci potrebbero essere errori nelle frasi perciò se qualcuno vuole, può revisionarle

Sent from my LG-H870 using Tapatalk

flod · « **Risposta #4 il:** 01 Luglio 2018 10:35:33 »

Citazione da: Sav22999 - 01 Luglio 2018 10:20:42

https://github.com/MozillaItalia/voice-web/blob/master/server/data/it/frasi.txt questo è il link per accedere alle frasi dal repo di mozillaitalia.

Mettiamo in pausa le correzioni per il momento, non credo che la qualità di quel file sia accettabile per iniziare quel tipo di lavoro

Mte90 · « **Risposta #5 il:** 01 Luglio 2018 14:15:32 »

Qualche info sul materiale raccolto riguardo le fonti, il materiale è tutto di pubblico dominio o sotto CC0 quindi non richiede di specificare le fonti.

Quali sono le fonti potete vederlo da https://public.etherpad-mozilla.org/p/mozita-commonvoice-sources. Non possiamo tracciare le prime 100 frasi circa che sono state raccolte durante lo sprint https://voice-sprint.mozilla.community/ di Maggio.

Il materiale è molto variegato ad esempio si passa dai testi di manuali di Mozilla Italia a discorsi dei papi dello scorso secolo fino a dei libri a materiale come tesine delle superiori e testo preso da chat. Il tutto per avere un materiale variegato e anche comune, considerando che l'idea è di riconoscere del testo sia comune che professionale e ci possono essere degli errori. Il punto ora probabilmente è quantificare quanti sono, se sono bloccanti e fare una nuova pull request con le correzioni. Consideriamo che per loro non è necessario che nei testi ci siano obbligatoriamente segnali di interpunzione.

Mte90 · « **Risposta #6 il:** 01 Luglio 2018 16:54:42 »

Ho fatto una revisione con grammaer checker e accorciato diverse frasi molto lunghe, il file aggiornato si trova su https://github.com/MozillaItalia/voice-web/blob/master/server/data/it/frasi.txt ma non è ancora stato caricato sul progetto principale

Mte90 · « **Risposta #7 il:** 01 Luglio 2018 22:16:22 »

Abbiamo un ramo e ho fatto altre modifiche https://github.com/mozillaitalia/voice-web/blob/ita-review/server/data/it/frasi.txt

Mte90 · « **Risposta #8 il:** 02 Luglio 2018 12:01:29 »

Abbiamo fatto diverse revisioni, accorciando le frasi, correggendo diversi errori e facendo pulizia.

astrastefania · « **Risposta #9 il:** 05 Luglio 2018 19:40:12 »

Una decina fra torinese e amico francese Alexandre Lissy, ad una Open Mozilla Night, sito in italiano live in meno 15 minuti!

Grazie a Mte90 e tutti coloro che hanno collaborato!!!

Mte90 · « **Risposta #10 il:** 05 Luglio 2018 21:31:23 »

Grazie a tutti specialmente Saverio per il lavoro di selezione di modi di dire, scioglilingua e dei libri!

La lingua italiana è disponibile su https://voice.mozilla.org/it/speak dove potete approvare registrazioni audio o farne. Consiglio di fare un account per tenere il conto di quello che fate.

Se trovate frasi troppo lunghe da leggere, potete fare una pull request su https://github.com/MozillaItalia/voice-web/blob/ita-review/server/data/it/frasi.txt oppure segnalarcelo qua e provvederemo ad aggiornare.
Abbiamo fatto diverse revisioni ma su 7700 frasi qualcuna che è sfuggita ci può essere. Prima di aggiungerne di nuove direi di verificare questo materiale

A breve vedremo di fare un articolo sul progetto per il blog, se qualcuno vuole farlo ci trovate su telegram

Mte90 · « **Risposta #11 il:** 11 Luglio 2018 17:41:08 »

Ecco qui l'annuncio ufficiale: https://www.mozillaitalia.org/home/2018/07/11/common-voice-ora-parla-italiano-ti-va-di-donare-la-tua-voce/

Dal lancio ufficiale le stringhe sono state revisionate più volte ed anche accorciate a 125 caratteri.

Mte90 · « **Risposta #12 il:** 07 Agosto 2018 20:58:00 »

Lo scorso weekend abbiamo promosso il progetto ad Italian Hacker camp, ecco qua il resoconto https://daniele.tech/2018/08/italian-hacker-camp-2018-io-cero/

Siamo passati da 1700 registrazioni del 17 luglio a 8000 del 7 agosto.

Mte90 · « **Risposta #13 il:** 12 Novembre 2018 10:25:40 »

Giusto per aggiornare anche qui, oramai abbiamo superato le 11000 frasi e stiamo lavorando con dei tool per controllare le frasi secondo delle nostre regole (stiamo rifacendo anche la guida per contribuire donando le frasi).
I prossimi passi sono la promozione per cui abbiamo diverse idee.

In ogni caso ci coordiniamo via telegram sul gruppo Voglio diventare volontario, cercate @mozitahub su telegram e da li entrate anche nel gruppo home.

TheHammer78 · « **Risposta #14 il:** 12 Novembre 2018 15:24:41 »

Buongiorno a tutti,
mi sono appena registrato sul forum proprio perché da qualche tempo sto seguendo con interesse il progetto Common Voice / DeepSpeech, partecipando anche alla verifica delle varie frasi registrate.

Avrei qualche migliaio di domande, ma vorrei limitarmi alle principali:

- dove c'è più bisogno di aiuto? Verifica delle frasi registrate o lettura?
- se non ho capito male il goal è arrivare a dicembre con una buona quantità di materiale verificato: a che punto siamo e come seguire gli avanzamenti?
- esiste già la possibilità di testare il materiale raw in Italiano al momento raccolto (anche la parte non verificata per intenderci)?
- come promuovere l'iniziativa?

Grazie, spero di non essere stato inopportuno.

Autore Topic: Raccolta stringhe per Common Voice (Letto 12946 volte)

Mte90

Raccolta stringhe per Common Voice

Mte90

Re: Raccolta stringhe per Common Voice

Winfox

Re: Raccolta stringhe per Common Voice

Sav22999

Re: Raccolta stringhe per Common Voice

flod

Re: Raccolta stringhe per Common Voice

Mte90

Re: Raccolta stringhe per Common Voice

Mte90

Re: Raccolta stringhe per Common Voice

Mte90

Re: Raccolta stringhe per Common Voice

Mte90

Re: Raccolta stringhe per Common Voice

astrastefania

Re: Raccolta stringhe per Common Voice

Mte90

Re: Raccolta stringhe per Common Voice

Mte90

Re: Raccolta stringhe per Common Voice

Mte90

Re: Raccolta stringhe per Common Voice

Mte90

Re:Raccolta stringhe per Common Voice

TheHammer78

Re:Raccolta stringhe per Common Voice