Multi-modální zpracování dokumentů

Honzík, Václav

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Král Pavel, Doc. Ing. Ph.D.
dc.contributor.author	Honzík, Václav
dc.contributor.referee	Lenc Ladislav, Ing. Ph.D.
dc.date.accepted	2023-9-5
dc.date.accessioned	2023-09-11T22:23:28Z	-
dc.date.available	2022-9-9
dc.date.available	2023-09-11T22:23:28Z	-
dc.date.issued	2023
dc.date.submitted	2023-5-18
dc.identifier	93470
dc.identifier.uri	http://hdl.handle.net/11025/54138	-
dc.description.abstract	Multimodální zpracování dokumentů je oblast informatiky, která se zaměřuje na analýzu, porozumění a získávání cenných informací z dokumentů, které obsahují více typů dat. V této práci je naším hlavním cílem provést analýzu rozložení dokumentů pomocí obrazu i textu. Náš přístup zahrnuje použití modelů pro segmentaci instancí, jako jsou Mask R-CNN, YOLOv8 nebo Cascade R-CNN s páteří LayoutLMv3. Výstupy segmentačních modelů využíváme v multimodálních Transformerech, jako je LayoutLMv3 nebo ve fúzním modelu, který kombinuje německy předtrénovaného BERTa s Vision Transformerem nebo modelem Swin Transformer V2. Dalším přínosem této práce je také nově vytvořená historická datová sada "Heimatkunde", která se skládá z 4 600 anotací na 329 obrázcích a je použitelná pro multimodální analýzu rozložení dokumentů i pro klasifikaci. Naše modely trénujeme na této datové sadě a jsme schopni dosáhnout výborných výsledků. Tyto modely budou proto reálně využity v historickém portálu Porta Fontium.	cs
dc.format	98 s (150 437 znaků)
dc.language.iso	en
dc.publisher	Západočeská univerzita v Plzni
dc.rights	Plný text práce je přístupný bez omezení
dc.subject	multi-modální	cs
dc.subject	zpracování dokumentů	cs
dc.subject	layoutlmv3	cs
dc.subject	transformer	cs
dc.subject	vit	cs
dc.subject	swin transformer v2	cs
dc.subject	yolov8	cs
dc.subject	strojové učení	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	computer vision	cs
dc.subject	neural networks	cs
dc.title	Multi-modální zpracování dokumentů	cs
dc.title.alternative	Multi-modal document processing	en
dc.type	diplomová práce
dc.thesis.degree-name	Ing.
dc.thesis.degree-level	Navazující
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd
dc.thesis.degree-program	Inženýrská informatika
dc.description.result	Obhájeno
dc.description.abstract-translated	Multi-modal document processing is an area of computer science that focuses on analyzing, understanding, and extracting valuable information from documents that contain multiple types of data. In this work, our main objective is to perform document layout analysis using both visual and textual modalities. Our approach involves the use of instance segmentation models such as Mask R-CNN, YOLOv8, or Cascade R-CNN with a LayoutLMv3 backbone. We employ the outputs of the segmentation models with multi-modal Transformers such as LayoutLMv3 or a fusion model combining German pre-trained BERT with either Vision Transformer or Swin Transformer~V2. Another contribution of this work is a newly created historical "Heimatkunde" dataset, which consists of 4,600 annotations across 329 images and is applicable for multi-modal document layout analysis as well as classification. We train our models on this dataset and are able to achieve excellent results. Therefore, we plan to integrate these models into the Porta Fontium portal.	en
dc.subject.translated	multi-modal	en
dc.subject.translated	document processing	en
dc.subject.translated	layoutlmv3	en
dc.subject.translated	transformer	en
dc.subject.translated	vit	en
dc.subject.translated	swin transformer v2	en
dc.subject.translated	yolov8	en
dc.subject.translated	machine learning	en
dc.subject.translated	natural language processing	en
dc.subject.translated	computer vision	en
dc.subject.translated	neural networks	en
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
MastersThesis.pdf	Plný text práce	9,89 MB	Adobe PDF	Zobrazit/otevřít
A21N0045Pposudek-op.pdf	Posudek oponenta práce	420,88 kB	Adobe PDF	Zobrazit/otevřít
A21N0045Phodnoceni-ved.pdf	Posudek vedoucího práce	53,28 kB	Adobe PDF	Zobrazit/otevřít
A21N0045Pobhajoba.pdf	Průběh obhajoby práce	187 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/54138

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace