Full metadata record
DC poleHodnotaJazyk
dc.contributor.authorSvoboda, Lukáš-
dc.contributor.authorBrychcín, Tomáš-
dc.date.accessioned2019-06-10T10:00:09Z-
dc.date.available2019-06-10T10:00:09Z-
dc.date.issued2018-
dc.identifier.citationSVOBODA, L., BRYCHCÍN, T. Improving Word meaning representations using Wikipedia categories. Neural Network World, 2018, roč. 28, č. 6, s. 523-534. ISSN 1210-0552.en
dc.identifier.issn1210-0552-
dc.identifier.uri2-s2.0-85061489302-
dc.identifier.urihttp://hdl.handle.net/11025/34807-
dc.description.abstractV tomto článku prezentujeme metody Skip-gram a CBOW pro extrakci reprezentace významu slov rozšířené o globální informaci. Využíváme vlastní korpus, který včetně globální informace generujeme z Wikipedie, kde jsou články organizovány hierarchicky dle kategorií. Tyto kategorie poskytují dodatečné a velmi užitečné informace (popis) o každém článku. Představujeme čtyři nové modely, jak obohatit reprezentaci slovních významů s využitím globální informace. Experimentujeme s anglickou Wikipedií a testujeme naše modely na standardních datových souborech podobnosti slov a korpusu slovních analogií. Navržené modely výrazně překonávají standardní metody reprezentace slov, zejména při trénování na velikostně podobných korpusech a poskytují podobné výsledky ve srovnání s metodami trénovanými na mnohem větších souborech dat. Náš nový přístup ukazuje, že zvyšování množství trénovacích dat nemusí zvyšovat kvalitu reprezentace významu slov tolik, jako je trénování s využitím globální informace, nebo jak se ukazuje u nových přístupů , které pracují s vnitřní informací daného slova na bázi jednotlivých znaků (fastText).cs
dc.format12 s.cs
dc.format.mimetypeapplication/pdf-
dc.language.isoenen
dc.publisherInstitute of Computer Scienceen
dc.rights© Institute of Computer Scienceen
dc.subjectdistribuční sémantikacs
dc.subjectvylepšení word2veccs
dc.subjectvnořená slovacs
dc.subjectglobální informacecs
dc.subjectwikipediacs
dc.subjectCBOWcs
dc.subjectSkip-gramcs
dc.subjectčíselná reprezentace slovcs
dc.titleImproving Word meaning representations using Wikipedia categoriesen
dc.title.alternativeVylepšení reprezentace slovních vektorů s využitím kategorií z Wikipediecs
dc.typečlánekcs
dc.typearticleen
dc.rights.accessopenAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedIn this paper we extend Skip-Gram and Continuous Bag-of-Words Distributional word representations models via global context information. We use a corpus extracted from Wikipedia, where articles are organized in a hierarchy of categories. These categories provide useful topical information about each article. We present the four new approaches, how to enrich word meaning representation with such information. We experiment with the English Wikipedia and evaluate our models on standard word similarity and word analogy datasets. Proposed models significantly outperform other word representation methods when similar size training data of similar size is used and provide similar performance compared with methods trained on much larger datasets. Our new approach shows, that increasing the amount of unlabelled data does not necessarily increase the performance of word embeddings as much as introducing the global or sub-word information, especially when training time is taken into the consideration.en
dc.subject.translatedWord2vecen
dc.subject.translatedskipgramen
dc.subject.translatedcbowen
dc.subject.translatedimproving distributional word representationen
dc.subject.translatedusing global informationen
dc.subject.translatednew approachen
dc.identifier.doi10.14311/NNW.2018.28.029-
dc.type.statusPeer-revieweden
dc.identifier.obd43926048-
dc.project.IDSGS-2016-018/Datové a softwarové inženýrství pro komplexní aplikacecs
Vyskytuje se v kolekcích:Články / Articles (KIV)
OBD

Soubory připojené k záznamu:
Soubor VelikostFormát 
Svoboda NNW.2018.28.029.pdf387,91 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/34807

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání
navigace
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD