Title: Automatic numbers normalization in inflectional languages
Other Titles: Normalizace číslovek v inflexních jazycích
Authors: Kanis, Jakub
Zelinka, Jan
Müller, Luděk
Citation: KANIS, Jakub; ZELINKA, Jan; MÜLLER, Luděk. Automatic numbers normalization in inflectional languages. In: SPECOM 2005 Proceedings. St. Petersburg: Institute for Informatics and Automation of RAS (SPIIRAS), 2005, p. 663-666. ISBN 5-7452-0110-X.
Issue Date: 2005
Publisher: Moscow state linguistic university
Document type: článek
article
URI: http://www.kky.zcu.cz/cs/publications/KanisJ_2005_Automaticnumbers
http://hdl.handle.net/11025/17129
ISSN: 5-7452-0110-X
Keywords: normalizace;číslovky;tagování;předzpracování
Keywords in different language: normalization;numerals;tagging;preprocessing
Abstract: Tento článek popisuje metodu na převod číslovek, které nejsou zapsány v plné textové formě, na text, který může být zpracován systémem automatické fonetické transkripce. Tato práce zkoumá tři druhy získávání morfologické informace a dva způsoby zpracování této informace.
Abstract in different language: This paper is devoted to the text normalization module in our text-to-speech synthesis system. We focused on conversion numerals written as figures into a readable full-length form. The numerals conversion is a significant issue in inflectional language as Czech, Russian or Slovak because morphological and semantic information is necessary to make the conversion unambiguous. In the paper three part-of-speech tagging methods are compared. Furthermore, a method reducing the tagset to increase the numerals conversion accuracy is presented in the paper.
Rights: © Jakub Kanis - Jan Zelinka - Luděk Müller
Appears in Collections:Články / Articles (NTIS)
Články / Articles (KKY)

Files in This Item:
File Description SizeFormat 
KanisJ_2005_Automaticnumbers.pdfPlný text134,81 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/17129

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.