Autore Topic: Common Voice nel 2019 (aggiornamenti periodici) (Letto 8614 volte)

Mte90 · « **il:** 02 Ottobre 2019 11:48:30 »

Quest'anno avremo 5 città che parleranno di Common Voice: Brescia, Benevento, Roma, Torino (forse anche Catania).
Con 6 città con tematiche mozilla in totale

Ho voluto scrivere questo thread giusto per aggiornare riguardo common voice e cosa faremo al Linux Day.
Sotto poi spiego i vari punti.

Siamo a 45 ore validate di italiano ma 51 registrate! https://voice.mozilla.org/it e abbiamo un doc di idee https://docs.google.com/document/d/1mSm0ZOzAGkWtRqV8fAkFtKhag0J1swa1ZdmVo5kDci8/edit#
Abbiamo aggiunto il supporto al Wikipedia scraper per l'italiano, con la blacklist https://github.com/Common-Voice/common-voice-wiki-scraper/pull/51
Abbiamo gli script per la creazione del modello in lingua italiana https://github.com/MozillaItalia/DeepSpeech-Italian-Model
Le slide del talk su common voice sono su https://docs.google.com/presentation/d/1oFkstTY140Tp6cazOgSC6LBeTRF0labJNCl-0DogfQI/edit#slide=id.p1
La versione 71 in beta per la fine del mese avrà il supporto alla web speech api

Stato Common Voice

Qualche settimana fa ho fatto una riunione con quello che fa da community manager in Mozilla per il progetto. In poche parole nei prossimi mesi ci saranno delle campagne sul progetto e volevano sapere se avevamo idee per aumentare il numero di partecipanti e come far evolvere il progetto per avere più ore.
Mi hanno detto che possono aggiungere degli snippet nella about:home in italiano ad hoc ma per me non sono sufficienti.
Siamo rimasti che facevo un documento in inglese di dee e cose che possiamo provare come comunità nelle prossime settimane https://docs.google.com/document/d/1mSm0ZOzAGkWtRqV8fAkFtKhag0J1swa1ZdmVo5kDci8/edit# Siete tutti invitati a dare una letta e dare i vostri commenti, se avete problemi con l'inglese fatemi sapere.
Qualche settimana fa sono andato a KDE Akademy a Milano e ho conosciuto il capo redattore della rivista GNU/Linux (che trovate in edicola). Mi ha fatto una video intervista caricata su Facebook https://www.facebook.com/GNULinuxMagazineItalia/videos/1472998396158222/ Il prossimo numero (non quello attualmente in edicola) includerà nel DVD la intervista. Io ho notato che dopo il caricamento abbiamo avuto una impennata di registrazioni, ma anche pubblicare su reddit.com/r/italyinformatica lo stato del progetto ha portato più traffico.

Wikipedia scraper

Nasce da una necessità per tutte le altre lingue, noi siamo tra le 30 disponibili ma in coda ce ne sono altre 75!
Non tutti hanno una comunità che possa raccogliere le frasi e al tempo stesso sufficienti per le necessità del software di apprendimento (deepspeech) quindi è stato realizzato uno strumento che prenda frasi a caso da Wikipedia con tutta una serie di regole e noi abbiamo aggiunto il supporto all'italiano.

Il modello

Deepspeech rilascia solamente quello di lingua inglese ed ogni comunità deve realizzare il suo, con l'aiuto di quello francese (ed uno dei dev di deepspeech) abbiamo i nostri script per generarlo (già testato) ma siamo alla ricerca di persone che possano mettere il loro computer con scheda Nvidia e conoscenze docker a disposizione per questa generazione.
Il modello serve al software per poter riconoscere l'italiano e sfrutta i dati di common voice, più dati ovvero registrazioni abbiamo più sarà bravo ad indovinare.
Spero di averlo prima del Linux Day così potremo fare la demo altrimenti si userà webspeech (punto più giù).

Slide

Sono le slide aggiornate e chiunque può utilizzarle, sono in italiano e spiegano common voice, quello che facciamo e deepspeech.

Firefox 71 in beta

Al momento questa api non é ancora disponibile in nightly (il dev ci sta lavorando). Di cosa si tratta? in poche parole usa un server esterno (al momento di google) che è sotto proxy così le richieste vengono anonimizzate (si non sanno chi siete, quale pagina state visitando ecc se non solo l'audio inviato) che converte il vostro parlare in testo.
Un esempio lo potete provare su Google Translate tramite Chrome che aggiunge un pulsante microfono che converte quello che dite in testo che poi traduce. In Firefox come questa api sarà aggiunta il pulsante sarà disponibile, se volete una cosa similare in Firefox potete installare https://addons.mozilla.org/it/firefox/addon/voice-fill/ che aggira il problema dell'api ma aggiunge il microfono di ricerca in Google.
Quando deepspeech sarà funzionante con dei dati sufficienti per le varie lingue verrà sostituito a quello di Google. Se volete provare webspeech, cercate su internet "webspeech demo" e troverete diversi esempi.

Riunione ottobre

Avremo la riunione venerdì dove potrò dare altri aggiornamenti e rispondere a qualunque domanda (anche qui sul forum). Venite su Telegram per maggiori informazioni, cercate @mozitabot.
Se avete domande sul perché del progetto vi consiglio di vedere le slide

Siamo anche sul forum Mozilla internazionale dove abbiamo la sezione in italiano per common voice https://discourse.mozilla.org/t/common-voice-per-linux-day-2019-e-stato/46062

Grazie a Saverio, Damiano, Simone, Giovanni e Alessandro per l'aiuto in tutte queste cose!

Mte90 · « **Risposta #1 il:** 14 Ottobre 2019 12:22:34 »

Gli ultimi aggiornamenti:

* Abbiamo un modello per la lingua italiana considerato beta, https://github.com/mone27/DeepSpeech-Italian-Model/releases/tag/0.1 Allo stato attuale non riconosce tutto, causa dataset piccoli ma stiamo cercando altre fonti CC0 e nel frattempo sistemando gli script di generazione prima di pubblicarlo ufficialmente sul nostro repo
* Ora che abbiamo il modello vogliamo fare una demo, stile scarica e via. DeepSpeech stesso ha delle interfacce incluse ma potremmo pensare anche a cose più elaborate tipo https://blog.rasa.com/how-to-build-a-voice-assistant-with-open-source-rasa-and-mozilla-tools/
* Per lo scraper di Wikipedia la lingua italiana oramai è supportata ufficialmente

Mte90 · « **Risposta #2 il:** 21 Ottobre 2019 11:01:00 »

* Abbiamo un nuovo modello che consideriamo ancora in beta ma questa volta è ufficiale https://github.com/MozillaItalia/DeepSpeech-Italian-Model/releases/tag/model-0.1a , ci sono ancora dei problemi da sistemare ma ci stiamo lavorando ed ogni test è il benvenuto. Grazie simone

* L'estrapolazione dello scraper è stata fatta ma non so se le nuove frasi sono state caricate
* Per il momento sto seguendo la mia patch al generatore di blacklist per lo scraper https://github.com/MozillaItalia/DeepSpeech-Italian-Model/releases/tag/model-0.1a
* Dobbiamo vedere per il modello dei parametri migliori perché abbiamo un corpo ore molto basso e quindi va ottimizzato
* Sul nostro spazio abbiamo aggiunto un altra locandina di common voice, realizzata da Marco e presente nel'università di Padova in giro https://drive.google.com/drive/u/2/folders/1AUPIGeDjvJPwUsdiYPTOOFw757HBdsFQ

Ad oggi il repo di DeepSpeech per italiano ha come admin: Me, mone27 o Simone per gli amici e astrastefania o Stefania per gli amici.
Ci trovate su telegram con il nostro bot @mozitabot nel gruppo Developers

Mte90 · « **Risposta #3 il:** 11 Novembre 2019 13:05:22 »

Abbiamo superato le 50 ore di audio disponibile!
Altri aggiornamenti sono prematuri su altri punti

miki64 · « **Risposta #4 il:** 11 Novembre 2019 16:50:44 »

Complimenti per la tua perseveranza, Daniele!

Mte90 · « **Risposta #5 il:** 19 Novembre 2019 11:50:40 »

Quali sono le novità delle due ultime settimane?

https://t.me/DeepSpeechItalianBot - Abbiamo un bot telegram fatto da una azienda italiana interessata a DS e al modello che ci vuole aiutare, utilizza il nostro modello e confronto l'audio inviato con google speech e deepspeech per vedere la qualità. Ad oggi il modello dimostra di non essere il massimo e quindi abbiamo bisogno di più dataset audio+test
Siamo a 52 ore revisionate il che significa che abbiamo aumentato il ritmo di revisione!
Stiamo vedendo due dataset (che creeremo noi in ogni caso) su due fonti: https://github.com/MozillaItalia/DeepSpeech-Italian-Model/issues/25 e https://github.com/MozillaItalia/DeepSpeech-Italian-Model/issues/34
Dobbiamo rigenerare il modello con la nuova versione di deepspeech e cambiare i parametri per mgiliorarlo

Per aiutarci basta poco, se conoscete fonti audio+test con licenza CC in italiano contattatemi, possono essere anche ad esempio risorse come audio libri o podcast ma ci serve il testo preciso.

Mte90 · « **Risposta #6 il:** 22 Novembre 2019 12:50:08 »

Il 19 novembre vi ho scritto riguardo al fatto che siamo a 52 ore ma oggi siamo arrivati a 72 ore (si vede dalla home selezionando la lingua in basso)!
Come riferimento da giugno 2019 a novembre 2019 prima della promozione abbiamo registrato solo 12 ore in totale.

Il 18 novembre per chi utilizza Firefox stabile trova sulla pagina about:home lo snippet promozionale riguardo al contribuire a Common Voice.
Abbiamo raggiunto le 2353 persone (https://voice.mozilla.org/it/languages) mentre il 19 erano circa 800.

Nei prossimi giorni faranno anche un tweet in italiano sull'account ufficiale ma niente su facebook o instagram che per noi può essere un problema.
Ci saranno anche delle newsletter scritte direttamente in italiano ma non si sa quando.

Altro dettaglio per fine anno verrà generato il nuovo dataset.

Creazione corpus per il modello

Cambiamo argomento e passiamo al modello, con nuove leve che sono interessate al progetto e ci stanno dando una mano (dopo il bot) abbiamo ragionato sul fattore corpus testuale per la base predittiva del modello.
Il corpus è una aggregazione di dati testuali secondo alcuni criteri pensati per l'analisi computazionali, al momento usiamo un dump di wikipedia che non va bene.

Vi spiego meglio:

Il programma non solo riconosce le parole ma si appoggia anche su del materiale clo aiuta a prevedere le combinazioni di parole, come il correttore automatico moderno. A seconda delle parole che usate lui impara e vi suggerisce le successive.
Utilizzando del amatoriale su cui impara di wikipedia forniamo materiale con linguaggio enciclopedico, in terza persona e non comunemente parlato oltre che tecnico
Quindi abbiamo bisogno di fornire un miliardo di parole (la nostra stima)
Le fonti devono seguire certe regole che adesso vi spiego

Come per quando abbiamo selezionato le frasi da leggere ci sono delle regole perchè di italiano disponibile in licenza CC anche per uso commerciale se ne trova tanto ma il 90% delle volte usa un italiano non moderno quindi abbiamo adottato il criterio che deve essere stato scritto dopo il 1920.
Inoltre questo testo deve poter essere accessibile in formato testuale, niente pdf o epub e da aggregatori non una pagina sola ad esempio. Questo perchè dovremo fare un programma per ogni sito/risorsa che poi deve anche pulirlo da simboli che non servono e quindi il programma deve essere tarato. Avere tante pagine da fonti diverse significa disperdere il lavoro dei volontari e siccome siamo in pochi preferiamo pensare alla massa critica intanto.
Alcune fonti sono state già bocciate come Liberliber/Librivox per i motivi che riepilogo sotto

Inoltre il tipo di testo deve essere: discussioni, frasi in prima persona, forme colloquiali, dialoghi, battute, interviste.
Quindi materiale come poesie, decreti legge, verbali, manuali, tutorial, discorsi non vanno bene. Invece romanzi (perchè hanno la prima persona), lettere, interviste rientrano, come anche traduzioni moderne di romanzi scritti prima.

Riepilogando:

Licenza che supporta l'uso commerciale
Scritto dopo il 1920/30
Come testi romanzi (perchè hanno la prima persona), lettere, interviste e non altre fonti
Da aggregatori con ricerca per anno e che non usano il progetto gutenberg (la maggior parte fa così ma abbiamo già fatto una scrematura da quel progetto direttamente)
In formato txt non pdf o epub
Dobbiamo fare massa critica quindi contattare un autore specifico al momento ci fa disperdere le energie perchè non abbiamo abbastanza persone nello sviluppare poi il programma

La pagina con cui stiamo tracciando i vari progetti e le selezioni fatte: https://github.com/MozillaItalia/DeepSpeech-Italian-Model/issues/36

Mte90 · « **Risposta #7 il:** 05 Dicembre 2019 12:01:40 »

Gli ultimi aggiornamenti sono meno corposi:

Abbiamo superato le 100 ore di materiale audio e stiamo oltre le 70 ore di audio revisionato
Stiamo discutendo la questione licenze per il modello e i vari dataset che usiamo https://discourse.mozilla.org/t/how-to-deal-with-academic-and-public-domain-license-for-model-usage/49847 e https://www.reddit.com/r/ItalyInformatica/comments/e6ffyg/licenze_open_source_e_paper_accademici/
Per il corpus testuale abbiamo due script per due fonti: gutenberg e Wikiquote, mancano gli altri https://github.com/MozillaItalia/DeepSpeech-Italian-Model/issues/36

Mte90 · « **Risposta #8 il:** 18 Dicembre 2019 15:42:25 »

Le ultime novità:

Common Voice H2 2019 Community Engagements https://www.youtube.com/watch?v=p3eSpMY3PNA fino al minuto 17
121 ore con 86 ore revisionate
Dati di dicembre https://discourse.mozilla.org/t/december-community-campaign/50442
Stiamo portando avanti per il corpus ma ci serve una mano per implementare altri script https://github.com/MozillaItalia/DeepSpeech-Italian-Model/issues/36

Autore Topic: Common Voice nel 2019 (aggiornamenti periodici) (Letto 8614 volte)

Mte90

Common Voice nel 2019 (aggiornamenti periodici)

Mte90

Re:Common Voice per Linux Day 2019

Mte90

Re:Common Voice per Linux Day 2019

Mte90

Re:Common Voice nel 2019 (aggiornamenti periodici)

miki64

Re:Common Voice nel 2019 (aggiornamenti periodici)

Mte90

Re:Common Voice nel 2019 (aggiornamenti periodici)

Mte90

Re:Common Voice nel 2019 (aggiornamenti periodici)

Mte90

Re:Common Voice nel 2019 (aggiornamenti periodici)

Mte90

Re:Common Voice nel 2019 (aggiornamenti periodici)