Distribuční sémantika s využitím neuronových sítí

Svoboda, Lukáš

Název:	Distribuční sémantika s využitím neuronových sítí
Další názvy:	Distributional Semantics Using Neural Networks
Autoři:	Svoboda, Lukáš
Datum vydání:	2020
Nakladatel:	Západočeská univerzita v Plzni
Typ dokumentu:	disertační práce
URI:	http://hdl.handle.net/11025/41777
Klíčová slova:	distribuční sémantika;vylepšení;vnořená slova;word2vec;word embeddings;sentiment;analýza;globální informace;neuronové sítě;čeština;chorvatština;flektivní jazyk;nlp;zpracování přirozeného jazyka;podobnost vět;pochopení textu;extrakce reprezentace slov;slovní analogie
Klíčová slova v dalším jazyce:	distributional semantics;models;improving;word embeddings;word2vec;sentiment analysis;czech;croatian;inflectional languages;global information;neural networks;natural language processing;semantic textual similarity;text understanding;word analogy
Abstrakt:	V posledních letech vykazují metody založené na neuronových sítích zásadní zlepšení v zachycení sémantiky a syntaxe slov nebo vět. Mnoho bylo vyzkoumáno o vnoření anglických slov a frází, ale jen malá pozornost byla věnována jiným jazykům. Na úrovni slov zkoumáme chování nejmodernějších metod pro tvorbu vnořených slov na češtině a chorvatštině, což jsou zástupci slovanských jazyků charakterizovaných bohatou morfologií slov. Tvoříme první korpusy pro testování kvality číselné reprezentace (vnoření) slov na podobnost a tzv. úlohu slovních analogií českého a chorvatského jazyka. Pro pochopení významu vět ukážeme, jak s těmito jazyky pracovat při řešení aktuálně jedněch z nejdiskutovanějších úloh jako je sémantická textová analýza a analýza sentimentu založená na aspektech. Většina prací komunity v počítačovém zpracování přirozeného jazyka věnující se těmto úlohám se také zaměřuje výlučně na anglický jazyk. Nejen volný slovosled českého a~chorvatského jazyka komplikuje učení současných nejmodernějších metod. Představíme první korpusy a modely, které dokáží pochopit sémantiku vět k~řešení těchto úloh pro flektivní jazyky. Na závěr představíme nový přístup k učení číselné reprezentace slov obohacený o globální informace získané z Wikipedie. Pro náš nový přístup vycházíme z modelů Continuous Bag-of-Words a Skip-gram vylepšených o globální kontextové informace. Provedeme analýzu chování výsledného modelu na flektivním jazyku a porovnáváme je s výsledky v angličtině. Výsledky tohoto modelu ukazují, že náš přístup může pomoci vytvořit číselné preprezentace slov, které lépe fungují s menšími korpusy a zlepšují výkonnost ve vysoce flektivních jazycích. Náš výzkum pomáhá komunitě pokračovat ve zdokonalování nejmodernějších metod s důrazem na flektivní jazyky. Práce se také zaměřuje na využití neuronových sítí mezi úlohami v počítačovém zpracování přirozeného jazyka. Jsou popsány základní algoritmy strojového učení a jejich použití při zpracování přírozeného jazyka a nejčastěji využívané algoritmy pro extrakci číselné reprezentace slov. Je uveden stručný přehled metod distribuční sémantiky.
Abstrakt v dalším jazyce:	During recent years, neural network-based methods are showing crucial improvements in catching semantic and syntactical properties of words or sentences. Much has been investigated about word embeddings of English words and phrases, but little attention has been dedicated to other languages. At the level of words, we explore the behavior of state-of-the-art word embedding methods on Czech and Croatian, which are representatives of Slavic languages characterized by rich word morphology. We build the first corpora for testing word embedding accuracy on similarity and analogy tasks of Czech and Croatian language. For understanding semantics on the sentence level, we show how to deal with these languages on some of the currently most discused tasks such as aspect-based sentiment analysis (ABSA) and semantic textual similarity (STS). Most of the community work here is also dedicated to English language. Free word order of Czech and Croatian complicates learning of current state-of-the-art methods. We build first corpora and state-of-the-art models for understanding sentence semantics adapted on highly inflectional language for dealing with STS and ABSA task. Finally, we develop a new approach for learning word embeddings enriched with global information extracted from Wikipedia. We evaluate our new approach based on the Continuous Bag-of-Words and Skip-gram models enriched with global context information on highly inflectional language and compare it with English. The results of the model shows, that our approach can help to create word embeddings that perform better with smaller corpora and improve performance on highly inflected languages. Our research helps the community to continue with improving the state-of-the-art methods with focus on highly inflectioned languages. The thesis also focuses on further use of neural networks (NN) in Natural Language Processing (NLP) tasks. Basic machine learning algorithms for NLP are described as well as the commonly used algorithms for extracting word embeddings. A brief overview of distributional semantics methods is presented. We emphasize the analysis of models' behaviour in the highly inflected language environment.
Práva:	Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:	Disertační práce / Dissertations (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
lukas-PhDThesis.pdf	Plný text práce	1,23 MB	Adobe PDF	Zobrazit/otevřít
posudky-odp-svoboda.pdf	Posudek oponenta práce	578,82 kB	Adobe PDF	Zobrazit/otevřít
protokol-odp-svoboda.pdf	Průběh obhajoby práce	579,2 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/41777

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace