Lipreading with LipsID

Hlaváč, Miroslav; Gruber, Ivan; Železný, Miloš; Karpov, Alexey

Název:	Lipreading with LipsID
Další názvy:	Odezírání ze rtů pomocí LipsID
Autoři:	Hlaváč, Miroslav Gruber, Ivan Železný, Miloš Karpov, Alexey
Citace zdrojového dokumentu:	HLAVÁČ, M., GRUBER, I., ŽELEZNÝ, M., KARPOV, A. Lipreading with LipsID. In: 22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedings. Cham: Springer, 2020. s. 176-183. ISBN 978-3-030-60275-8, ISSN 0302-9743.
Datum vydání:	2020
Nakladatel:	Springer
Typ dokumentu:	konferenční příspěvek conferenceObject
URI:	2-s2.0-85092911566 http://hdl.handle.net/11025/42721
ISBN:	978-3-030-60275-8
ISSN:	0302-9743
Klíčová slova:	Automatické odezírání ze rtů;Počítačové vidění;Vizuální rozpoznávání řeči;Hluboké učení
Klíčová slova v dalším jazyce:	Automated lipreading;Computer vision;Visual speech recognition;Deep learning
Abstrakt:	Tato práce prezentuje nový přístup k adaptaci současných systémů pro rozpoznávání vizuální řeči. Adaptace je založena na příznacích LipsID. Tyto příznaky reprezentují zpracovaný region okolí rtů. Příznaky jsou extrahovány pomocí klasifikační neuronové sítě předtrénované na specifickém datasetu pro konkrétní systém rozpoznávání vizuální řeči. Trénovací proces pro LipsID zahrnuje ArcFace ztrátovou funkci k lepšímu oddělení příznaků pro jednotlivé řečníky z datasetu. Neuronová síť využívá konvoluční vrstvy k extrakci příznaků ze vstupní sekvence obrázků s řečníkem a je navržena k tomu, aby přijímala stejný typ vstupu jako system rozpoznávání vizuální řeči. Paralelní zpracování vstupní sekvence sítí LipsID a systémem pro rozpoznávání vizuální řeči je následováno kombinací obou setů příznaků a finální klasifikací pomocí CTC algoritmu. Tato práce prezentuje výsledky experimentů provedených na systému LipNet pomocí jeho reimplementace a porovnání výsledků s i bez LipsID příznaků. Výsledky ukazují slibnou cestu pro budoucí použití v dalších systémech pro rozpoznávání vizuální řeči. Trénování a testování je implementováno pomocí Tensorflow/Keras.
Abstrakt v dalším jazyce:	This paper presents an approach for adaptation of the current visual speech recognition systems. The adaptation technique is based on LipsID features. These features represent a processed area of lips ROI. The features are extracted in a classification task by neural network pre-trained on the dataset-specific to the lip-reading system used for visual speech recognition. The training procedure for LipsID implements ArcFace loss to separate different speakers in the dataset and to provide distinctive features for every one of them. The network uses convolutional layers to extract features from input sequences of speaker images and is designed to take the same input as the lipreading system. Parallel processing of input sequence by LipsID network and lipreading network is followed by a combination of both feature sets and final recognition by Connectionist Temporal Classification (CTC) mechanism. This paper presents results from experiments with the LipNet network by re-implementing the system and comparing it with and without LipsID features. The results show a promising path for future experiments and other systems. The training and testing process of neural networks used in this work utilizes Tensorflow/Keras implementations.
Práva:	Plný text není přístupný. © Springer
Vyskytuje se v kolekcích:	Konferenční příspěvky / Conference papers (NTIS) Konferenční příspěvky / Conference Papers (KKY) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
Hlaváč2020_Chapter_LipreadingWithLipsID.pdf	693,66 kB	Adobe PDF	Zobrazit/otevřít Vyžádat kopii

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/42721

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace