Full metadata record
DC pole | Hodnota | Jazyk |
---|---|---|
dc.contributor.author | Vaněk, Jan | |
dc.contributor.author | Michálek, Josef | |
dc.contributor.author | Psutka, Josef | |
dc.date.accessioned | 2020-03-16T11:00:23Z | - |
dc.date.available | 2020-03-16T11:00:23Z | - |
dc.date.issued | 2019 | |
dc.identifier.citation | VANĚK, J., MICHÁLEK, J., PSUTKA, J. Tuning of Acoustic Modeling and Adaptation Technique for a Real Speech Recognition Task. In: Statistical Language and Speech Processing, 7th International Conference, SLSP 2019, Ljubljana, Slovenia, October 14–16, 2019, Proceedings. Cham: Springer, 2019. s. 235-245. ISBN 978-3-030-31371-5 , ISSN 0302-9743. | en |
dc.identifier.isbn | 978-3-030-31371-5 | |
dc.identifier.issn | 0302-9743 | |
dc.identifier.uri | 2-s2.0-85075879256 | |
dc.identifier.uri | http://hdl.handle.net/11025/36669 | |
dc.description.abstract | Nejdříve jsme vytvořili telefonní akustické modely pro češtinu za pomoci různých Kaldi receptů. Měli jsme 500-hodinový český telefonní korpus podobný korpusu Switchboard. Zvolili jsme model neuronové sítě TDNN, variantu "d", s i-vektorovou adaptací, protože na testovacích datech fungoval nejlépe. Architektura sítě TDNN s nesymetrickým okénkem také splňovala omezení rozpoznávání v reálném čase. Nicméně, model nefungoval na skutečných datech z call centra. Problém byl v metodě získávání i-vektorů. Trénovací data jsou rozděleny do krátkých promluv. V Kaldi receptu jsou vytvořeni pseudořečníci ze 2 promluv a i-vektory jsou získány pro tyto pseudořečníky. Promluvy z call centra jsou ale několikanásobně delší, v řádu minut. TDNN model byl natrénován z i-vektorů, které nesouhlasily z testovacími. Navrhujeme dva způsoby normalizace statistik používaných k výpočtu i-vektorů. I-vektory pro testovací data s těmito normalizacemi jsou kompatibilní s i-vektory z trénovacích dat. V článku se také zabýváme několika dalšími způsoby zlepšování přesnosti modelu na datech, které nesedí s trénovacími, a otestovali jsme také LSTM modely. | cs |
dc.format | 11 s. | cs |
dc.format.mimetype | application/pdf | |
dc.language.iso | en | en |
dc.relation.ispartofseries | Statistical Language and Speech Processing, 7th International Conference, SLSP 2019, Ljubljana, Slovenia, October 14–16, 2019, Proceedings | en |
dc.rights | Plný text je přístupný v rámci univerzity přihlášeným uživatelům. | cs |
dc.rights | © Springer | en |
dc.subject | neuronové sítě | cs |
dc.subject | akustický model | cs |
dc.subject | automatické rozpoznání řeči | cs |
dc.subject | adaptace | cs |
dc.subject | i-vektory | cs |
dc.title | Tuning of Acoustic Modeling and Adaptation Technique for a Real Speech Recognition Task | en |
dc.title.alternative | Ladění akustických modelů a adaptačních technik pro rozpoznávání skutečné řeči | cs |
dc.type | konferenční příspěvek | cs |
dc.type | conferenceObject | en |
dc.rights.access | restrictedAccess | en |
dc.type.version | publishedVersion | en |
dc.description.abstract-translated | At the beginning, we had started to develop a Czech telephone acoustic model by evaluating various Kaldi recipes. We had a 500-h Czech telephone Switchboard-like corpus. We had selected the Time-Delay Neural Network (TDNN) model variant “d” with the i-vector adaptation as the best performing model on the held-out set from the corpus. The TDNN architecture with an asymmetric time-delay window also fulfilled our real-time application constrain. However, we were wondering why the model totally failed on a real call center task. The main problem was in the i-vector estimation procedure. The training data are split into short utterances. In the recipe, 2-utterance pseudospeakers are made and i-vectors are evaluated for them. However, the real call center utterances are much longer, in order of several minutes or even more. The TDNN model was trained from i-vectors that did not match the test ones. We propose two ways how to normalize statistics used for the i-vector estimation. The test data i-vectors with the normalization are better compatible with the training data i-vectors. In the paper, we also discuss various additional ways of improving the model accuracy on the out-of-domain real task including using LSTM based models. | en |
dc.subject.translated | neural networks | en |
dc.subject.translated | acoustic model | en |
dc.subject.translated | automatic speech recognition | en |
dc.subject.translated | adaptation | en |
dc.subject.translated | i-vectors | en |
dc.identifier.doi | 10.1007/978-3-030-31372-2_20 | |
dc.type.status | Peer-reviewed | en |
dc.identifier.obd | 43927403 | |
dc.project.ID | EF16_013/0001781/LINDAT/CLARIN - Výzkumná infrastruktura pro jazykové technologie | cs |
Vyskytuje se v kolekcích: | Konferenční příspěvky / Conference Papers (KKY) OBD |
Soubory připojené k záznamu:
Soubor | Velikost | Formát | |
---|---|---|---|
Vanek2019_Chapter_TuningOfAcousticModelingAndAda.pdf | 503,56 kB | Adobe PDF | Zobrazit/otevřít Vyžádat kopii |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/36669
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.