Lipreading with LipsID

Hlaváč, Miroslav; Gruber, Ivan; Železný, Miloš; Karpov, Alexey

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.author	Hlaváč, Miroslav
dc.contributor.author	Gruber, Ivan
dc.contributor.author	Železný, Miloš
dc.contributor.author	Karpov, Alexey
dc.date.accessioned	2021-02-22T11:00:21Z	-
dc.date.available	2021-02-22T11:00:21Z	-
dc.date.issued	2020
dc.identifier.citation	HLAVÁČ, M., GRUBER, I., ŽELEZNÝ, M., KARPOV, A. Lipreading with LipsID. In: 22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedings. Cham: Springer, 2020. s. 176-183. ISBN 978-3-030-60275-8, ISSN 0302-9743.	cs
dc.identifier.isbn	978-3-030-60275-8
dc.identifier.issn	0302-9743
dc.identifier.uri	2-s2.0-85092911566
dc.identifier.uri	http://hdl.handle.net/11025/42721
dc.description.abstract	Tato práce prezentuje nový přístup k adaptaci současných systémů pro rozpoznávání vizuální řeči. Adaptace je založena na příznacích LipsID. Tyto příznaky reprezentují zpracovaný region okolí rtů. Příznaky jsou extrahovány pomocí klasifikační neuronové sítě předtrénované na specifickém datasetu pro konkrétní systém rozpoznávání vizuální řeči. Trénovací proces pro LipsID zahrnuje ArcFace ztrátovou funkci k lepšímu oddělení příznaků pro jednotlivé řečníky z datasetu. Neuronová síť využívá konvoluční vrstvy k extrakci příznaků ze vstupní sekvence obrázků s řečníkem a je navržena k tomu, aby přijímala stejný typ vstupu jako system rozpoznávání vizuální řeči. Paralelní zpracování vstupní sekvence sítí LipsID a systémem pro rozpoznávání vizuální řeči je následováno kombinací obou setů příznaků a finální klasifikací pomocí CTC algoritmu. Tato práce prezentuje výsledky experimentů provedených na systému LipNet pomocí jeho reimplementace a porovnání výsledků s i bez LipsID příznaků. Výsledky ukazují slibnou cestu pro budoucí použití v dalších systémech pro rozpoznávání vizuální řeči. Trénování a testování je implementováno pomocí Tensorflow/Keras.	cs
dc.format	8 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	en	en
dc.publisher	Springer	en
dc.relation.ispartofseries	22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7–9, 2020, Proceedings	en
dc.rights	Plný text není přístupný.	cs
dc.rights	© Springer	en
dc.subject	Automatické odezírání ze rtů	cs
dc.subject	Počítačové vidění	cs
dc.subject	Vizuální rozpoznávání řeči	cs
dc.subject	Hluboké učení	cs
dc.title	Lipreading with LipsID	en
dc.title.alternative	Odezírání ze rtů pomocí LipsID	cs
dc.type	konferenční příspěvek	cs
dc.type	conferenceObject	en
dc.rights.access	closedAccess	en
dc.type.version	publishedVersion	en
dc.description.abstract-translated	This paper presents an approach for adaptation of the current visual speech recognition systems. The adaptation technique is based on LipsID features. These features represent a processed area of lips ROI. The features are extracted in a classification task by neural network pre-trained on the dataset-specific to the lip-reading system used for visual speech recognition. The training procedure for LipsID implements ArcFace loss to separate different speakers in the dataset and to provide distinctive features for every one of them. The network uses convolutional layers to extract features from input sequences of speaker images and is designed to take the same input as the lipreading system. Parallel processing of input sequence by LipsID network and lipreading network is followed by a combination of both feature sets and final recognition by Connectionist Temporal Classification (CTC) mechanism. This paper presents results from experiments with the LipNet network by re-implementing the system and comparing it with and without LipsID features. The results show a promising path for future experiments and other systems. The training and testing process of neural networks used in this work utilizes Tensorflow/Keras implementations.	en
dc.subject.translated	Automated lipreading	en
dc.subject.translated	Computer vision	en
dc.subject.translated	Visual speech recognition	en
dc.subject.translated	Deep learning	en
dc.identifier.doi	10.1007/978-3-030-60276-5_18
dc.type.status	Peer-reviewed	en
dc.identifier.obd	43930760
dc.project.ID	LTARF18017/AMIR - Multimodální rozhraní založené na gestech a mluvené i znakové řeči pro ovládání asistivního mobilního informačního robota	cs
dc.project.ID	LM2015042/E-infrastruktura CESNET	cs
dc.project.ID	90042/Velká výzkumná infrastruktura povinnost (J) - CESNET II	cs
Vyskytuje se v kolekcích:	Konferenční příspěvky / Conference papers (NTIS) Konferenční příspěvky / Conference Papers (KKY) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
Hlaváč2020_Chapter_LipreadingWithLipsID.pdf	693,66 kB	Adobe PDF	Zobrazit/otevřít Vyžádat kopii

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/42721

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace