Full metadata record
DC poleHodnotaJazyk
dc.contributor.authorHlaváč, Miroslav
dc.contributor.authorGruber, Ivan
dc.contributor.authorŽelezný, Miloš
dc.contributor.authorKarpov, Alexey
dc.date.accessioned2021-02-22T11:00:21Z-
dc.date.available2021-02-22T11:00:21Z-
dc.date.issued2020
dc.identifier.citationHLAVÁČ, M., GRUBER, I., ŽELEZNÝ, M., KARPOV, A. Lipreading with LipsID. In: 22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedings. Cham: Springer, 2020. s. 176-183. ISBN 978-3-030-60275-8, ISSN 0302-9743.cs
dc.identifier.isbn978-3-030-60275-8
dc.identifier.issn0302-9743
dc.identifier.uri2-s2.0-85092911566
dc.identifier.urihttp://hdl.handle.net/11025/42721
dc.description.abstractTato práce prezentuje nový přístup k adaptaci současných systémů pro rozpoznávání vizuální řeči. Adaptace je založena na příznacích LipsID. Tyto příznaky reprezentují zpracovaný region okolí rtů. Příznaky jsou extrahovány pomocí klasifikační neuronové sítě předtrénované na specifickém datasetu pro konkrétní systém rozpoznávání vizuální řeči. Trénovací proces pro LipsID zahrnuje ArcFace ztrátovou funkci k lepšímu oddělení příznaků pro jednotlivé řečníky z datasetu. Neuronová síť využívá konvoluční vrstvy k extrakci příznaků ze vstupní sekvence obrázků s řečníkem a je navržena k tomu, aby přijímala stejný typ vstupu jako system rozpoznávání vizuální řeči. Paralelní zpracování vstupní sekvence sítí LipsID a systémem pro rozpoznávání vizuální řeči je následováno kombinací obou setů příznaků a finální klasifikací pomocí CTC algoritmu. Tato práce prezentuje výsledky experimentů provedených na systému LipNet pomocí jeho reimplementace a porovnání výsledků s i bez LipsID příznaků. Výsledky ukazují slibnou cestu pro budoucí použití v dalších systémech pro rozpoznávání vizuální řeči. Trénování a testování je implementováno pomocí Tensorflow/Keras.cs
dc.format8 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherSpringeren
dc.relation.ispartofseries22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedingsen
dc.rightsPlný text není přístupný.cs
dc.rights© Springeren
dc.subjectAutomatické odezírání ze rtůcs
dc.subjectPočítačové viděnícs
dc.subjectVizuální rozpoznávání řečics
dc.subjectHluboké učenícs
dc.titleLipreading with LipsIDen
dc.title.alternativeOdezírání ze rtů pomocí LipsIDcs
dc.typekonferenční příspěvekcs
dc.typeconferenceObjecten
dc.rights.accessclosedAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedThis paper presents an approach for adaptation of the current visual speech recognition systems. The adaptation technique is based on LipsID features. These features represent a processed area of lips ROI. The features are extracted in a classification task by neural network pre-trained on the dataset-specific to the lip-reading system used for visual speech recognition. The training procedure for LipsID implements ArcFace loss to separate different speakers in the dataset and to provide distinctive features for every one of them. The network uses convolutional layers to extract features from input sequences of speaker images and is designed to take the same input as the lipreading system. Parallel processing of input sequence by LipsID network and lipreading network is followed by a combination of both feature sets and final recognition by Connectionist Temporal Classification (CTC) mechanism. This paper presents results from experiments with the LipNet network by re-implementing the system and comparing it with and without LipsID features. The results show a promising path for future experiments and other systems. The training and testing process of neural networks used in this work utilizes Tensorflow/Keras implementations.en
dc.subject.translatedAutomated lipreadingen
dc.subject.translatedComputer visionen
dc.subject.translatedVisual speech recognitionen
dc.subject.translatedDeep learningen
dc.identifier.doi10.1007/978-3-030-60276-5_18
dc.type.statusPeer-revieweden
dc.identifier.obd43930760
dc.project.IDLTARF18017/AMIR - Multimodální rozhraní založené na gestech a mluvené i znakové řeči pro ovládání asistivního mobilního informačního robotacs
dc.project.IDLM2015042/E-infrastruktura CESNETcs
dc.project.ID90042/Velká výzkumná infrastruktura povinnost (J) - CESNET IIcs
Vyskytuje se v kolekcích:Konferenční příspěvky / Conference papers (NTIS)
Konferenční příspěvky / Conference Papers (KKY)
OBD

Soubory připojené k záznamu:
Soubor VelikostFormát 
Hlaváč2020_Chapter_LipreadingWithLipsID.pdf693,66 kBAdobe PDFZobrazit/otevřít  Vyžádat kopii


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/42721

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání
navigace
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD