Title: Rozpoznávání názvů značek v sociálních mediích
Other Titles: Recognition of brands in social media
Authors: Witz, Lukáš
Advisor: Konkol Michal, Ing. Ph.D.
Referee: Steinberger Josef, Doc. Ing. Ph.D.
Issue Date: 2016
Publisher: Západočeská univerzita v Plzni
Document type: diplomová práce
URI: http://hdl.handle.net/11025/23682
Keywords: rozpoznávání pojmenovaných entit;strojové učení;sociální média
Keywords in different language: named-entity recognition;machine learning;social media
Abstract: Cílem práce je prozkoumat metody používané pro rozpoznávání pojmenovaných entit, z těchto technik jednu vybrat, implementovat, ověřit funkčnost porovnáním s již existujícími systémy a následně aplikovat na data pocházející ze sociálních médií, v nichž identifikuje názvy organizací a produktů. Implementované řešení staví na knihovně pro strojové učení Brainy a pro realizaci používá jí poskytovaný algoritmus Conditional Random Fields. Vytvořený systém na standardním korpusu (Czech Named Entity Corpus) dosahuje podobných výsledků jako ten, který se snaží napodobit. Systém pro korpus dosahuje úspěšnosti 70,69 % (Micro F-measure strict) a pro data pocházející ze sociálních sítí 83,04 %. Hlavním přínosem této práce je vytvoření systému umožňujícího rozpoznávání pojmenovaných entit v textu a otestování jeho výkonnosti na komentářích pocházející z internetového fóra zaměřujícího se především na jednu doménu, kterou jsou telekomunikace.
Abstract in different language: The goal of this thesis is to survey methods used for the Named-entity recognition, to choose one, implement it, verify the functionality by comparing it to an already existing system and apply it on data extracted from social media and recognize names of products and organisations. The implemented solution builds on a machine learning library named Brainy and uses its Conditional Random Fields implementation. The created system achieves similar results on the Czech Named Entity Corpus as the system we try to reproduce. The system performance for the corpus (measured in Micro F-measure strict) is 70.69 % and it scores 83.04 % for the social media data. The main benefit this thesis brings is a system able to recognise named entities and test its performance on comments from a forum focusing on telecommunication.
Rights: Plný text práce je přístupný bez omezení.
Appears in Collections:Diplomové práce / Theses (KIV)

Files in This Item:
File Description SizeFormat 
Lukas_Witz_DP_2016.pdfPlný text práce727,16 kBAdobe PDFView/Open
A14N0150Pposudek-op.PDFPosudek oponenta práce391,14 kBAdobe PDFView/Open
A14N0150Phodnoceni-ved.PDFPosudek vedoucího práce338,13 kBAdobe PDFView/Open
A14N0150Pobhajoba.PDFPrůběh obhajoby práce204,89 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/23682

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.