Automatic punctuation annotation in czech broadcast news speech

Kolář, Jáchym; Švec, Jan; Psutka, Josef

Název:	Automatic punctuation annotation in czech broadcast news speech
Další názvy:	Automatická anotace interpunkce v řečových nahrávkách českých zpráv
Autoři:	Kolář, Jáchym Švec, Jan Psutka, Josef
Citace zdrojového dokumentu:	KOLÁŘ, Jáchym; ŠVEC, Jan; PSUTKA, Josef. Automatic punctuation annotation in czech broadcast news speech. In: SPECOM 2004 Proceedings. St. Petersburg: Institute for Informatics and Automation of RAS (SPIIRAS), 2004, p. 319-325. ISBN 5-7452-0110-X.
Datum vydání:	2004
Nakladatel:	SPIIRAS
Typ dokumentu:	článek article
URI:	http://www.kky.zcu.cz/cs/publications/KolarJ_2004_Automaticpunctuation http://hdl.handle.net/11025/17116
ISBN:	5-7452-0110-X
Klíčová slova:	automatická interpunkce;prozodie;hranice vět;rozhlasové zprávy;morfologické značkování
Klíčová slova v dalším jazyce:	automatic punctuation;prosody;sentence boundary;broadcast news;tag-based models
Abstrakt:	Tento článek se zabývá našimi počátečními experimenty s automatickou anotací interpunkce v mluvené češtině. Použili jsme 2 statistické modely - prozodický a jazykový. Byly otestovány 2 implementace prozodického modelu - CART a MLP. Pro jazykové modelováni byl použit N-gramový model se skrytými událostmi. Kombinovaný model dosáhl na referenčních přepisech přesnosti 95.2% a F-measure 78.2%.
Abstrakt v dalším jazyce:	This paper reports our initial experiments with automatic punctuation annotation from speech. We have focused on Czech broadcast news speech. We employed two statistical models - prosodic model and language model. The prosodic model expresses relationships between prosodic quantities (such as pitch, speaking rate or loudness) and punctuation marks. We tested two implementations of this model -- decision tree and multi-layer perceptron. Hidden-event N-gram models were employed for language modeling. Instead of using an ordinary word-based model, we replaced infrequent word forms by their morphological tags and trained a mixed model. Scores from both models can be combined. The model combining language model with the decision tree yielded superior results. Testing on true words we achieved classification accuracy 95.2% and F-measure 78.2%.
Práva:	© Jáchym Kolář - Jan Švec - Josef Psutka
Vyskytuje se v kolekcích:	Články / Articles (KKY)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
KolarJ_2004_Automaticpunctuation.pdf	Plný text	94,95 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/17116

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace