Neural Sign Language Synthesis: Words Are Our Glosses

Zelinka, Jan; Kanis, Jakub

Název:	Neural Sign Language Synthesis: Words Are Our Glosses
Další názvy:	Syntéza znakového jazyka pomocí neuronových sítí: Slova jsou naše glosy
Autoři:	Zelinka, Jan Kanis, Jakub
Citace zdrojového dokumentu:	ZELINKA, J., KANIS, J. Neural Sign Language Synthesis: Words Are Our Glosses. In: 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). USA: IEEE, 2020. s. 3384-3392. ISBN 978-1-72816-553-0, ISSN 2472-6737.
Datum vydání:	2020
Nakladatel:	IEEE
Typ dokumentu:	konferenční příspěvek conferenceObject
URI:	2-s2.0-85085480480 http://hdl.handle.net/11025/42772
ISBN:	978-1-72816-553-0
ISSN:	2472-6737
Klíčová slova:	Znakový jazyk;syntéza;neuronové sítě
Klíčová slova v dalším jazyce:	Sign Language;Synthesis;Neural Networks
Abstrakt:	Tento článek se zabývá syntézou znakového jazyka typu text-video. Místo přímé produkce videa jsme se zaměřili na výrobu skeletových modelů. Naším hlavním cílem v tomto příspěvku bylo navrhnout plně end-to-end systém automatické syntézy znakového jazyka vyškolený pouze na dostupných volných datech (denní televizní vysílání). Proto jsme vyloučili jakoukoli manuální anotaci videa. Náš navržený přístup se navíc nespoléhá na žádnou segmentaci videa. Byl zkoumán navrhovaný dopředný transformátor a rekurentní transformátor. Abychom zlepšili výkon našeho transformátoru sekvence na sekvenci, byla v našem tréninkovém procesu použita měkká nemonotónní pozornost. Výhoda funkcí na úrovni znaků byla porovnána s funkcemi na úrovni slov. Naše experimenty jsme zaměřili na soubor dat o předpovědi počasí v českém znakovém jazyce.
Abstrakt v dalším jazyce:	This paper deals with a text-to-video sign language synthesis. Instead of direct video production, we focused on skeletal models production. Our main goal in this paper was to design a fully end-to-end automatic sign language synthesis system trained only on available free data (daily TV broadcasting). Thus, we excluded any manual video annotation. Furthermore, our designed approach even do not rely on any video segmentation. A proposed feed-forward transformer and recurrent transformer were investigated. To improve the performance of our sequence-to-sequence transformer, soft non-monotonic attention was employed in our training process. A benefit of character-level features was compared with word-level features. We focused our experiments on a weather forecasting dataset in the Czech Sign Language.
Práva:	Plný text není přístupný. © IEEE
Vyskytuje se v kolekcích:	Konferenční příspěvky / Conference papers (NTIS) Konferenční příspěvky / Conference Papers (KKY) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
WACV2020_Zelinka_NErural_sign_Language.pdf	502,21 kB	Adobe PDF	Zobrazit/otevřít Vyžádat kopii

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/42772

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace