Faccio riferimento a diversi link che sono presenti sul post sopra.
Novità da Mozilla All Hands:
* Alla presentazione del piano 2020 di common voice (di cui pubblicheranno un estratto ufficialmente quando è definito, diamogli qualche settimana) ecco i punti salienti:
* Wiki scraper è molto più veloce e vogliono fare che supporta altri dataset, tipo quello dell'europarlamento quindi bisogna tenere aggiornate le regole.
* Dobbiamo trovare una regular expression che riconosca i numeri romani così possiamo escludere le frasi che li contengono
* I gadget da mandare ai volontari non è previsto perchè non hanno le risorse ma tramite il programma reps posso averli di firefox, non specifici common voice (ecceto gli adesivi)
* Capire come rendere Kibana dentro common voice più facile da usare
* Vogliono fare delle dashboard interne dentro il sito di CV per capire meglio l'attività interna al sito, perchè allo stato attuale loro salavano i numeri delle frasi rifiutate ad esempio ma non usano questi numeri per migliorare il progetto
* Vogliono migliorare la stabilità del sito che ha avuto diversi crash, il progetto è nato come esperimento per una lingua sola. Hanno lavorato nel migliorare l'interfaccia ma non lato server che arranca perchè deve gestire oltre 70 lingue in contemporanea. Inoltre vogliono esporre più API del progetto.
* Vogliono fare degli studi su come vengono usati i dataset di CV per migliorarli
* Fare documentazione di CV per permettere una maggiore contribuzione anche perchè alcune lingue/paesi vorrebbero ospitare loro l'instanza di CV e quindi devono semplificare il suo utilizzo
* Il 2020 vedrà come focus 3 lingue su cui faranno esperimenti tedesco, francese e inglese
* Faranno degli studi sugli accenti e dialetti per la implementazione dentro il sito e come salvare e sfruttare queste informazioni per i dataset stesi
* Pianificano di fare una validazione delle registrazioni già validate o almeno di una parte per migliorare la qualità delle stesse. Personalmente immagino si parli delle prime registrazioni quando le regole non erano così precise come oggi
* Vogliono fare una guida per CV dal come si aggiunge nuova lingua a come si validano le frasi, sulla falsa riga delle nostra idea dei video
* La promozione con gli snippet dentro about:home potrebbe diventare permanente ma ogni mese con un nuovo testo per essere più coinvolgente
* Stanno studiando di fare della documentazione tra DeepSpeech e CV su MDN del tipo come usare queste tecnologie da zero
* I nostri documenti dalla storia del modello al documento con le idee/necessità sta girando perchè hanno bisogno di fatti sul campo
* Ci sono volontari che contribuiscono a DS perchè ci lavorano per dei governi, ad esempio Carlos che ha aggiunto il supporto per windows lavora per il governo spagnolo e colombiano.
* Il suo dataset usando librivox su cui possiamo fare prove
https://discourse.mozilla.org/t/releasing-my-spanish-dataset-120h-of-public-domain-data/41303 * Ho presentato quello che abbiamo fatto:
* Per l'app android dicono che sono a conoscenza dei problemi del sito su alcuni dispositivi android solo che non riescono a replicare quindi potremmo organizzare tipo un gruppo di test, che filma il sito con le specifiche del telefono e del browser
* Vogliono chiudere l'app ios per la fine dell'anno perchè ormai safari supporta l'api del microfono e per loro è meno lavoro
* Vogliono fare qualcosa con le frase segnalati e clip segnalate ma non è chiaro cosa, spero nell'esportare questi dati
* Per la questione dataset:
* é uscito il nuovo di cv quindi dobbiamo fare un nuovo modello
* I dev di DS mi consigliano e anche volontari di provare il transfer learning anche da modelli di altre lingue che migliorano sensibilmente
* Una delle idee è di fare una prova solo con il nuovo dataset, poi con il nostro vecchio modello e nuovo dataset, nuovo dataset e modello di lingua spagnolo. Con tre prove così potremmo avere una idea sulla qualità del riconoscimento
* Parlando con chi lavora in mozilla per lo sblocco di lingue minori (che ha lavorato sul sardo prima di entrare in mozilla per altri motivi)
* Può fornirci supporto per aggiungere dialetti come il friulano, siciliano, sardo, napoletano ecc ma ho preferito dire di no perchè potrebbe creare confusione visto che quello italiano è ancora così in fase di avvio e con poche ore. Sbloccare un dialetto/lingua potrebbe essere interessante ma dividere la comunità e le possibilità di arrivare ad una fine. Ovviamente se qualcuno ritiene che può portare avanti quei dialetti, fare la promozione, eventi oltre che raccogliere le frasi (migliaia) senza licenza, mi può scrivere in privato anche su telegram. Inoltre se sblocchiamo un dialetto non possiamo dedicarci a fare il modello come comunità perchè siamo impegnati con quello di lingua italiana.
* opensubtitle è un dataset illegale o con copyright quindi usarlo è un problema, stesso motivo per cui mozilla non lo ha usato per CV
* l'escamotage per questi dataset che sono proprietari (senza licenza come tutti quelli accademici) è di usarli non in totale ma tipo di prenderli e fare che se una frase è ripetuta tipo 10 volte la usiamo. Nel senso se è una frase ripetuta non possono dire da quale fonte l'abbiamo presa perchè diventa generica.
* Questa soluzione ci permette di poter usare tutti i dataset che vogliamo, richiede un po di lavoro di analisi e non so quanto può essere d'effetto ma ci permetterebbe di avere molte più frasi
* Il progetto TTS è realtà e funziona
https://github.com/mozilla/tts *
https://github.com/mozilla/DeepSpeech/issues/2687 Lavorano nel semplificare deepspeech e la sua api e cercano feedback da parte di chi usa il progetto
*
https://discourse.mozilla.org/t/deep-speech-in-the-wild/52583/ tracciano i progetti che usano deepspeech perchè vogliono essere pronti per la 1.0
* Dobbiamo documentare gli errori che gli utenti riscontrano sul sito di common voice, penso che potremmo fare una attività in cui si fa un video e si raccolgono informazioni di sistema
* Nel repo di deepspeech c'è un app di esempio per android in kotlin che loro usano per le dimostrazioni su diversi telefoni, può essere interessante farci qualcosa
* Ho parlato con quello che ha fatto il repo francese degli script per il modello ed è disponibile per domande e altro, inoltre è su matrix sia un canale common voice che gli sviluppatori di deepspeech
* Mi suggerisce di fare un modello per noi da usare per il transfer learning che usi quei dataset senza licenze che non rilasciamo
Generiche di Mozilla:
* Con i recenti licenziamenti e il blocco assunzioni stanno riassegnando i dipendenti in diversi team, quindi per almeno un mese molte cose non saranno chiare. Questo perchè ho chiesto riguardo i piani di promozione al di fuori del mondo Mozilla e devono vedere il team marketing come cambia.
* il server matrix/riot è in prova,li dentro però si segue la CPG, fra due settimane implementeranno il bridge che permetterà di collegare canali telegram e anche slack. Il server IRC verrà chiuso. Inutile dire che il server matrix è aperto a tutti basta avere un account github/firefox. Si può già usare su chat.mozilla.org , C'è il canale common voice che permetterà di parlare con i dipendenti e tutti i volontari che partecipano, ci sono molti canali dai devtool a quello di python.
* Preparatevi a più campagne di attività per i volontari e noi come comunità stiamo già pensando a diverse cose
* Firefox voice è interessante ma è ancora sperimentale
https://github.com/mozilla/firefox-voice https://www.ghacks.net/2020/01/12/firefox-voice-beta-starts/ https://bit.ly/FxVoice * Mozilla IoT ha un nuovo manager che viene da Firefox
Dal fosdem invece:
* Merge-It e IHC sono alle porte e dobbiamo organizzarci
* Dobbiamo verificare la questione per l'uso dei dataset accademici o senza licenza, perchè secondo alcune persone (compreso me) se vengono usati per generare qualcosa che non permette di tornare al file originale non è proprio una opera derivata ma un altro progetto e quindi dovrebbe essere lecito
* Il transfer learning potremmo essere controproducente perchè è per lingue diverse, inoltre farlo sul modello precedente è come farlo ripartire da prima e non è il caso
* Dobbiamo vedere meglio gli esempi di deepspeech
https://github.com/mozilla/DeepSpeech-examples che possono esserci utili per fare delle dimostrazioni
* Il mio talk con slide e video del fosdem è disponibile
https://fosdem.org/2020/schedule/event/how_to_get_fun_with_teamwork/Vi invito a parlarne su telegram con @mozitabot oppure contattatemi in privato sul forum o telegram