Title: | Lipreading with LipsID |
Other Titles: | Odezírání ze rtů pomocí LipsID |
Authors: | Hlaváč, Miroslav Gruber, Ivan Železný, Miloš Karpov, Alexey |
Citation: | HLAVÁČ, M., GRUBER, I., ŽELEZNÝ, M., KARPOV, A. Lipreading with LipsID. In: 22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedings. Cham: Springer, 2020. s. 176-183. ISBN 978-3-030-60275-8, ISSN 0302-9743. |
Issue Date: | 2020 |
Publisher: | Springer |
Document type: | konferenční příspěvek conferenceObject |
URI: | 2-s2.0-85092911566 http://hdl.handle.net/11025/42721 |
ISBN: | 978-3-030-60275-8 |
ISSN: | 0302-9743 |
Keywords: | Automatické odezírání ze rtů;Počítačové vidění;Vizuální rozpoznávání řeči;Hluboké učení |
Keywords in different language: | Automated lipreading;Computer vision;Visual speech recognition;Deep learning |
Abstract: | Tato práce prezentuje nový přístup k adaptaci současných systémů pro rozpoznávání vizuální řeči. Adaptace je založena na příznacích LipsID. Tyto příznaky reprezentují zpracovaný region okolí rtů. Příznaky jsou extrahovány pomocí klasifikační neuronové sítě předtrénované na specifickém datasetu pro konkrétní systém rozpoznávání vizuální řeči. Trénovací proces pro LipsID zahrnuje ArcFace ztrátovou funkci k lepšímu oddělení příznaků pro jednotlivé řečníky z datasetu. Neuronová síť využívá konvoluční vrstvy k extrakci příznaků ze vstupní sekvence obrázků s řečníkem a je navržena k tomu, aby přijímala stejný typ vstupu jako system rozpoznávání vizuální řeči. Paralelní zpracování vstupní sekvence sítí LipsID a systémem pro rozpoznávání vizuální řeči je následováno kombinací obou setů příznaků a finální klasifikací pomocí CTC algoritmu. Tato práce prezentuje výsledky experimentů provedených na systému LipNet pomocí jeho reimplementace a porovnání výsledků s i bez LipsID příznaků. Výsledky ukazují slibnou cestu pro budoucí použití v dalších systémech pro rozpoznávání vizuální řeči. Trénování a testování je implementováno pomocí Tensorflow/Keras. |
Abstract in different language: | This paper presents an approach for adaptation of the current visual speech recognition systems. The adaptation technique is based on LipsID features. These features represent a processed area of lips ROI. The features are extracted in a classification task by neural network pre-trained on the dataset-specific to the lip-reading system used for visual speech recognition. The training procedure for LipsID implements ArcFace loss to separate different speakers in the dataset and to provide distinctive features for every one of them. The network uses convolutional layers to extract features from input sequences of speaker images and is designed to take the same input as the lipreading system. Parallel processing of input sequence by LipsID network and lipreading network is followed by a combination of both feature sets and final recognition by Connectionist Temporal Classification (CTC) mechanism. This paper presents results from experiments with the LipNet network by re-implementing the system and comparing it with and without LipsID features. The results show a promising path for future experiments and other systems. The training and testing process of neural networks used in this work utilizes Tensorflow/Keras implementations. |
Rights: | Plný text není přístupný. © Springer |
Appears in Collections: | Konferenční příspěvky / Conference papers (NTIS) Konferenční příspěvky / Conference Papers (KKY) OBD |
Files in This Item:
File | Size | Format | |
---|---|---|---|
Hlaváč2020_Chapter_LipreadingWithLipsID.pdf | 693,66 kB | Adobe PDF | View/Open Request a copy |
Please use this identifier to cite or link to this item:
http://hdl.handle.net/11025/42721
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.