Název: Explicitní sémantická analýza
Další názvy: Explicit semantic analysis
Autoři: Tušl, Michal
Vedoucí práce/školitel: Brychcín Tomáš, Ing. Ph.D.
Oponent: Svoboda Lukáš, Ing.
Datum vydání: 2017
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: bakalářská práce
URI: http://hdl.handle.net/11025/27718
Klíčová slova: zpracování přirozeného jazyka;distribuční sémantika;sémantická podobnost;vektorové sémantické prostory;explicitní sémantická analýza;latentní sémantická analýza;singulární rozklad
Klíčová slova v dalším jazyce: nlp;distributional semantics;semantic similarity;vector space model;explicit semantic analysis;latent semantic analysis;singular value decomposition
Abstrakt: Tato práce je zaměřena na sémantickou analýzu textů. Konkrétně na metody Explicitní sémantická analýza a Latentní sémantická analýza. Tyto metody jsou založené na trénování bez učitele a jako trénovací data využívají Wikipedii. Na výsledek metod je aplikován singulární rozklad matic, který redukuje paměťové nároky a zároveň vylepšuje výsledky metod. Testování výsledků je prováděno na standardních datasetech pro anglický a český jazyk. Tyto datasety obsahují páry slov a manuálně definovanou sémantickou podobnost. Kvalita sémantické reprezentace je měrena pomocí Pearsonovy a Spearmanovy korelace. Všechny testované metody dosahují na obou jazycích velmi dobrých výsledků.
Abstrakt v dalším jazyce: This bachelor thesis investigates semantic analysis of texts in natural language. It focuses on Explicit Semantic Analysis and Latent Semantic Analysis methods. These methods are based on unsupervised machine learning and use Wikipedia as a training data. Singular Value Decomposition is used to reduce the memory requirements and also to improve the results. Standard English and Czech datasets are used for testing purposes. These datasets contain word pairs and manually annotated semantic similarity. The quality of semantic representation is evaluated by Pearson and Spearman correlation. All tested methods provide very promising results on both languages.
Práva: Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:Bakalářské práce / Bachelor´s works (KIV)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
BP_Tusl_A14B0453P.pdfPlný text práce516,22 kBAdobe PDFZobrazit/otevřít
A14B0453P-hodnoceni.pdfPosudek vedoucího práce235,16 kBAdobe PDFZobrazit/otevřít
A14B0453P-posudek.pdfPosudek oponenta práce412,13 kBAdobe PDFZobrazit/otevřít
A14B0453P-obhajoba.pdfPrůběh obhajoby práce185,69 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/27718

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.