Autore Topic: Common voice nel 2020 (Letto 13311 volte)

Mte90 · « **il:** 13 Gennaio 2020 11:04:00 »

Per chi vuole un po' di contesto c'è il thread dedicato al 2019 con un mucchio di link: https://forum.mozillaitalia.org/index.php?topic=73218.0

Sono passate oltre 3 settimane ma tra Natale e poche novità ho preferito aspettare.

* Abbiamo aperto un thread con l'elenco dei progetti in cui si cercano sviluppatori che vogliono contribuire, tra progetti Mozilla e Mozilla Italia https://forum.mozillaitalia.org/index.php?topic=73589.0
* 125 ore totali con 90 ore revisionate
* Pubblicato un articolo in inglese sulla evoluzione della comunità dal rilascio del modello per DS https://discourse.mozilla.org/t/how-the-italian-deepspeech-model-helped-our-mozilla-italia-community/50985
* Stiamo ancora lavorando per gli script per fare il nostro corpus (spiegato nel thread del 2019) ma ci serve aiuto perché c'è ancora molto da fare https://github.com/MozillaItalia/DeepSpeech-Italian-Model/issues/36
* Per fine gennaio è previsto il rilascio del nuovo dataset in CV per tutte le lingue
* Lo strumento per fare la blacklist per lo scraper di Wikipedia ha ricevuto due mie patch per correggere alcuni problemi che abbiamo riscontrato https://github.com/dabinat/cvtools/
* Avviata discussione sul forum internazionale senza successo per raccogliere informazioni su come gestire dataset universitari con le licenze open https://discourse.mozilla.org/t/how-to-deal-with-academic-and-public-domain-license-for-model-usage/49847
* Il nostro Saverio da tempo lavora ad un app Android per common voice https://github.com/Sav22999/common-voice-android
* Abbiamo aperto alcuni ticketp per lo scraper https://github.com/Common-Voice/common-voice-wiki-scraper/issues?q=is%3Aissue+sort%3Aupdated-desc+author%3AMte90+is%3Aclosed ma il progetto ha bisogno di sviluppatori
* Dobbiamo rivedere il nostro piano https://docs.google.com/document/d/1mSm0ZOzAGkWtRqV8fAkFtKhag0J1swa1ZdmVo5kDci8/edit# , I problemi più sentiti sono
* Mancanza di poter contattare con chi contribuisce per lingua
* Lista delle frasi riportate, al momento sono solo raccolte

Ricordo che ci trovate su Telegram con il nostro bot @mozitabot

Mte90 · « **Risposta #1 il:** 30 Gennaio 2020 09:07:31 »

Faccio riferimento a diversi link che sono presenti sul post sopra.

Novità da Mozilla All Hands:

* Alla presentazione del piano 2020 di common voice (di cui pubblicheranno un estratto ufficialmente quando è definito, diamogli qualche settimana) ecco i punti salienti:
* Wiki scraper è molto più veloce e vogliono fare che supporta altri dataset, tipo quello dell'europarlamento quindi bisogna tenere aggiornate le regole.
* Dobbiamo trovare una regular expression che riconosca i numeri romani così possiamo escludere le frasi che li contengono
* I gadget da mandare ai volontari non è previsto perchè non hanno le risorse ma tramite il programma reps posso averli di firefox, non specifici common voice (ecceto gli adesivi)
* Capire come rendere Kibana dentro common voice più facile da usare
* Vogliono fare delle dashboard interne dentro il sito di CV per capire meglio l'attività interna al sito, perchè allo stato attuale loro salavano i numeri delle frasi rifiutate ad esempio ma non usano questi numeri per migliorare il progetto
* Vogliono migliorare la stabilità del sito che ha avuto diversi crash, il progetto è nato come esperimento per una lingua sola. Hanno lavorato nel migliorare l'interfaccia ma non lato server che arranca perchè deve gestire oltre 70 lingue in contemporanea. Inoltre vogliono esporre più API del progetto.
* Vogliono fare degli studi su come vengono usati i dataset di CV per migliorarli
* Fare documentazione di CV per permettere una maggiore contribuzione anche perchè alcune lingue/paesi vorrebbero ospitare loro l'instanza di CV e quindi devono semplificare il suo utilizzo
* Il 2020 vedrà come focus 3 lingue su cui faranno esperimenti tedesco, francese e inglese
* Faranno degli studi sugli accenti e dialetti per la implementazione dentro il sito e come salvare e sfruttare queste informazioni per i dataset stesi
* Pianificano di fare una validazione delle registrazioni già validate o almeno di una parte per migliorare la qualità delle stesse. Personalmente immagino si parli delle prime registrazioni quando le regole non erano così precise come oggi
* Vogliono fare una guida per CV dal come si aggiunge nuova lingua a come si validano le frasi, sulla falsa riga delle nostra idea dei video
* La promozione con gli snippet dentro about:home potrebbe diventare permanente ma ogni mese con un nuovo testo per essere più coinvolgente
* Stanno studiando di fare della documentazione tra DeepSpeech e CV su MDN del tipo come usare queste tecnologie da zero
* I nostri documenti dalla storia del modello al documento con le idee/necessità sta girando perchè hanno bisogno di fatti sul campo
* Ci sono volontari che contribuiscono a DS perchè ci lavorano per dei governi, ad esempio Carlos che ha aggiunto il supporto per windows lavora per il governo spagnolo e colombiano.
* Il suo dataset usando librivox su cui possiamo fare prove https://discourse.mozilla.org/t/releasing-my-spanish-dataset-120h-of-public-domain-data/41303
* Ho presentato quello che abbiamo fatto:
* Per l'app android dicono che sono a conoscenza dei problemi del sito su alcuni dispositivi android solo che non riescono a replicare quindi potremmo organizzare tipo un gruppo di test, che filma il sito con le specifiche del telefono e del browser
* Vogliono chiudere l'app ios per la fine dell'anno perchè ormai safari supporta l'api del microfono e per loro è meno lavoro
* Vogliono fare qualcosa con le frase segnalati e clip segnalate ma non è chiaro cosa, spero nell'esportare questi dati
* Per la questione dataset:
* é uscito il nuovo di cv quindi dobbiamo fare un nuovo modello
* I dev di DS mi consigliano e anche volontari di provare il transfer learning anche da modelli di altre lingue che migliorano sensibilmente
* Una delle idee è di fare una prova solo con il nuovo dataset, poi con il nostro vecchio modello e nuovo dataset, nuovo dataset e modello di lingua spagnolo. Con tre prove così potremmo avere una idea sulla qualità del riconoscimento
* Parlando con chi lavora in mozilla per lo sblocco di lingue minori (che ha lavorato sul sardo prima di entrare in mozilla per altri motivi)
* Può fornirci supporto per aggiungere dialetti come il friulano, siciliano, sardo, napoletano ecc ma ho preferito dire di no perchè potrebbe creare confusione visto che quello italiano è ancora così in fase di avvio e con poche ore. Sbloccare un dialetto/lingua potrebbe essere interessante ma dividere la comunità e le possibilità di arrivare ad una fine. Ovviamente se qualcuno ritiene che può portare avanti quei dialetti, fare la promozione, eventi oltre che raccogliere le frasi (migliaia) senza licenza, mi può scrivere in privato anche su telegram. Inoltre se sblocchiamo un dialetto non possiamo dedicarci a fare il modello come comunità perchè siamo impegnati con quello di lingua italiana.
* opensubtitle è un dataset illegale o con copyright quindi usarlo è un problema, stesso motivo per cui mozilla non lo ha usato per CV
* l'escamotage per questi dataset che sono proprietari (senza licenza come tutti quelli accademici) è di usarli non in totale ma tipo di prenderli e fare che se una frase è ripetuta tipo 10 volte la usiamo. Nel senso se è una frase ripetuta non possono dire da quale fonte l'abbiamo presa perchè diventa generica.
* Questa soluzione ci permette di poter usare tutti i dataset che vogliamo, richiede un po di lavoro di analisi e non so quanto può essere d'effetto ma ci permetterebbe di avere molte più frasi
* Il progetto TTS è realtà e funziona https://github.com/mozilla/tts
* https://github.com/mozilla/DeepSpeech/issues/2687 Lavorano nel semplificare deepspeech e la sua api e cercano feedback da parte di chi usa il progetto
* https://discourse.mozilla.org/t/deep-speech-in-the-wild/52583/ tracciano i progetti che usano deepspeech perchè vogliono essere pronti per la 1.0
* Dobbiamo documentare gli errori che gli utenti riscontrano sul sito di common voice, penso che potremmo fare una attività in cui si fa un video e si raccolgono informazioni di sistema
* Nel repo di deepspeech c'è un app di esempio per android in kotlin che loro usano per le dimostrazioni su diversi telefoni, può essere interessante farci qualcosa
* Ho parlato con quello che ha fatto il repo francese degli script per il modello ed è disponibile per domande e altro, inoltre è su matrix sia un canale common voice che gli sviluppatori di deepspeech
* Mi suggerisce di fare un modello per noi da usare per il transfer learning che usi quei dataset senza licenze che non rilasciamo

Generiche di Mozilla:

* Con i recenti licenziamenti e il blocco assunzioni stanno riassegnando i dipendenti in diversi team, quindi per almeno un mese molte cose non saranno chiare. Questo perchè ho chiesto riguardo i piani di promozione al di fuori del mondo Mozilla e devono vedere il team marketing come cambia.
* il server matrix/riot è in prova,li dentro però si segue la CPG, fra due settimane implementeranno il bridge che permetterà di collegare canali telegram e anche slack. Il server IRC verrà chiuso. Inutile dire che il server matrix è aperto a tutti basta avere un account github/firefox. Si può già usare su chat.mozilla.org , C'è il canale common voice che permetterà di parlare con i dipendenti e tutti i volontari che partecipano, ci sono molti canali dai devtool a quello di python.
* Preparatevi a più campagne di attività per i volontari e noi come comunità stiamo già pensando a diverse cose
* Firefox voice è interessante ma è ancora sperimentale https://github.com/mozilla/firefox-voice https://www.ghacks.net/2020/01/12/firefox-voice-beta-starts/ https://bit.ly/FxVoice
* Mozilla IoT ha un nuovo manager che viene da Firefox

Dal fosdem invece:

* Merge-It e IHC sono alle porte e dobbiamo organizzarci
* Dobbiamo verificare la questione per l'uso dei dataset accademici o senza licenza, perchè secondo alcune persone (compreso me) se vengono usati per generare qualcosa che non permette di tornare al file originale non è proprio una opera derivata ma un altro progetto e quindi dovrebbe essere lecito
* Il transfer learning potremmo essere controproducente perchè è per lingue diverse, inoltre farlo sul modello precedente è come farlo ripartire da prima e non è il caso
* Dobbiamo vedere meglio gli esempi di deepspeech https://github.com/mozilla/DeepSpeech-examples che possono esserci utili per fare delle dimostrazioni
* Il mio talk con slide e video del fosdem è disponibile https://fosdem.org/2020/schedule/event/how_to_get_fun_with_teamwork/

Vi invito a parlarne su telegram con @mozitabot oppure contattatemi in privato sul forum o telegram

Mte90 · « **Risposta #2 il:** 20 Febbraio 2020 14:16:31 »

Siamo a 109 ore su https://voice.mozilla.org/it
https://github.com/MozillaItalia/DeepSpeech-Italian-Model abbiamo aggiornato gli script del modello, a breve rilasciamo la nuova versione
Stiamo vedendo per l'ultizzo di alcuni dataset, la questione legale è una zona grigia https://www.reddit.com/r/MachineLearning/comments/3a24wx/copyright_laws_and_machine_learning_algorithms/
Comunicare con i contributor sul portale https://discourse.mozilla.org/t/how-to-reach-contributors-by-languages-for-communications/55103/5
Al tempo stesso si possono usare i dataset ma non possono essere rilasciati pubblicamente in US, gli script possono essere rilasciati https://www.reddit.com/r/MachineLearning/comments/f9m5vn/d_a_us_court_says_web_scraping_is_legal_are_there/
Alcuni casi legali in europa sul tema https://en.wikipedia.org/wiki/Web_scraping#The_EU oltre alla questione GDPR https://blog.scrapinghub.com/web-scraping-gdpr-compliance-guide
Stiamo vedendo per una partnership per avere dei server a disposizione per generare il modello
Per i problemi di Common Voice sito da mobile siamo alla ricerca di video che dimostrino il problema
Abbiamo deciso che il corpus testuale verrà generato on the fly e non rilasciato (mentre gli script si) per evitare ogni problema legale, quindi abbiamo definito alcuni corpus che dobbiamo scaricare e pulire https://github.com/MozillaItalia/DeepSpeech-Italian-Model/issues/36#issuecomment-594449886
La roadmap per il modello https://docs.google.com/document/d/1cep28JAv9f90LkIpVmJjR0lTDqW5Hp_YF7R-nVJ2zkY/edit

Mte90 · « **Risposta #3 il:** 20 Marzo 2020 12:29:41 »

Siamo a 110 ore convalidate su https://voice.mozilla.org/it
Abbiamo rilasciato una nuova versione del modello https://github.com/MozillaItalia/DeepSpeech-Italian-Model/releases/tag/2020.03.13
Abbiamo ricevuto due pr per altri due importatori per il corpus testuale predittivo
Abbiamo fatto diverse call per dei corpus, abbiamo avuto il pacco completo del dataset Clips che stiamo analizzando
Siamo stati menzionati su http://www.ils.org/restiamoacasa
Abbiamo fatto della promozione per via della quarantena per reclutare nuovi contributor https://www.reddit.com/r/ItalyInformatica/comments/fhy8xh/se_vi_prudono_le_mani_per_la_quarantena_e_volete/

Mte90 · « **Risposta #4 il:** 01 Aprile 2020 15:35:49 »

Siamo migrati su discourse per le novità di cv e ds visto che è il punto di riferimento per gli snippet di firefox e del sito https://discourse.mozilla.org/t/common-voice-per-il-2020-aggiornamenti-periodici/51903

Autore Topic: Common voice nel 2020 (Letto 13311 volte)

Mte90

Common voice nel 2020

Mte90

Re:Common voice nel 2020

Mte90

Re:Common voice nel 2020

Mte90

Re:Common voice nel 2020

Mte90

Re:Common voice nel 2020