Název: TEXT-MINING WITH LINKED DATA
Další názvy: TEXT-MINING WITH LINKED DATA
Autoři: Dostal, Martin
Vedoucí práce/školitel: Ježek, Karel
Datum vydání: 2015
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: disertační práce
URI: http://hdl.handle.net/11025/20645
Klíčová slova: text-mining;linked data;shlukování;klasifikace
Klíčová slova v dalším jazyce: text-mining;linked data;clustering;classification
Abstrakt: Tato práce představuje můj vývoj v oblasti text-miningu realizovaný s využitím sémantické informace získané z Linked Data. Tento přístup je demonstrován na dobře známých text-miningových úlohách jako je volba vlastností, klasifikace a shlukování. Tento přístup je vyhodnocen s využitím běžných datových kolekcí a s využitím několika vlastních korpusů v případech, kdy dostatečně velké korpusy nebyly k dispozici nebo nebyly vhodné pro daný experiment. Standardní datové kolekce zahrnují: 20 News Groups, Reuters-21578, The Open Directory Project, Kolekci článku z WOS pro citační analýzu, Datové kolekce ze Stanford University. Některé navržené metody, prezentované v této práci, však musely být vyhodnoceny manuálně z důvodu neexistence vhodného korpusu, jehož vytvoření by bylo značně náročné. Tato práce pokrývá i některé další experimenty, které se přímo netýkají text-miningu, ale které jsou této oblasti velmi blízké. Tyto experimenty byly realizovány s mými kolegy a zahrnují infometrii, citační analýzu a vylepšení grafových algoritmů typu PageRank.
Abstrakt v dalším jazyce: This thesis proposes the progress in the area of text-mining realized with methods improved by semantic information from Linked Data. This approach is demonstrated on well-known text-mining tasks like feature extraction, classification and clustering. This approach is evaluated with common available data corpuses and with my own several corpuses in cases when the large enough corpuses were not available or were not suitable for an experiment. The standard explored data sets include: 20 News Groups, Reuters-21578, The Open Directory Project, WOS data collection for citation analysis, data collections from Stanford University. Anyway some of the proposed methods had to be evaluated manually because the convenient corpus was not available and its creation would be quite challenging. This thesis also covers some experiments from my other areas of interest close to text-mining and that are related to my field of study. These experiments were realized with my coworkers and they include infometrics, citation analysis and enhancement of PageRank-style graph algorithms.
Práva: Plný text práce je přístupný bez omezení
Vyskytuje se v kolekcích:Disertační práce / Dissertations (KIV)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
phd_komplet_na_portal.pdfPlný text práce4,31 MBAdobe PDFZobrazit/otevřít
oponent-posudky-odp-dostal.pdfPosudek oponenta práce2,17 MBAdobe PDFZobrazit/otevřít
obhajoba-protokol-odp-dostal.pdfPrůběh obhajoby práce878,75 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/20645

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.