Title: Using lemmatization technique for automatic diacritics restoration
Other Titles: Využítí techniky lematizace pro obnovení diakritiky
Authors: Kanis, Jakub
Müller, Luděk
Citation: KANIS, Jakub; MÜLLER, Luděk. Using lemmatization technique for automatic diacritics restoration. In: SPECOM 2005 Proceedings. St. Petersburg: Institute for Informatics and Automation of RAS (SPIIRAS), 2005, p. 255-258. ISBN 5-7452-0110-X.
Issue Date: 2005
Publisher: Moscow state linguistic university
Document type: článek
article
URI: http://www.kky.zcu.cz/cs/publications/KanisJ_2005_Usinglemmatization
http://hdl.handle.net/11025/17128
ISBN: 5-7452-0110-X
Keywords: lemmatizace;OOV slova;obnovení diakritiky
Keywords in different language: lemmatization;OOV words;diacritics restoration
Abstract: Tento článek se zabývá automatickou konstrukcí lematizátoru z Plný tvar - Lema trénovacího slovníku a lematizací nových, v trénovacím slovníku neviděných, tj. OOV slov. Jsou představeny tři metody pro lematizaci tří různých typů OOV slov (chybějící plné tvary, složená a neznámá slova). Nakonec je posána aplikace metody pro automatickou konstrukci lematizátoru na problém obnovení diakritiky.
Abstract in different language: This paper is devoted to automatic construction of a lemmatizer from a Full Form - Lemma (FFL) training dictionary, and to lemmatization of new, in the FFL dictionary unseen - i.e. out-of-vocabulary (OOV), words. Three methods of lemmatization of three kinds of OOV words (missing full forms, unknown words, and compound words) are introduced. In addition, the application of lemmatizer automatic construction to the problem of automatic diacritics restoration is described.
Rights: © Jakub Kanis - Luděk Müller
Appears in Collections:Články / Articles (NTIS)
Články / Articles (KKY)

Files in This Item:
File Description SizeFormat 
KanisJ_2005_Usinglemmatization.pdfPlný text69,15 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/17128

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.