Multi-modální analýza emocí z textových a zvukových dat

Zeman, Matěj

Title:	Multi-modální analýza emocí z textových a zvukových dat
Other Titles:	Multi-modal emotion analysis in textual and audio data
Authors:	Zeman, Matěj
Advisor:	Lenc Ladislav, Ing. Ph.D.
Referee:	Prantl Martin, Ing. Ph.D.
Issue Date:	2024
Publisher:	Západočeská univerzita v Plzni
Document type:	diplomová práce
URI:	http://hdl.handle.net/11025/57235
Keywords:	multi-modální rozpoznání emocí;strojové učení;bert;cnn;python;extrakce příznaků
Keywords in different language:	multimodal emotion recognition;machine learning;bert;cnn;python;feature extraction
Abstract:	Multimodální klasifikace emocí zahrnuje rozpoznávání emocí z dat, která zahrnují více modalit. Pro rozpoznání emocí se nabízí hned několik modalit. Pohyb obličeje, text, záznam hlasu, nebo videa mluvčího. Tato práce se zaměřuje především na zvukovou a textovou modalitu pro rozpoznávání emocí. Nejprve je provedena extrakce příznaků ze zvukových dat. Následně jsou tyto příznaky použity pro trénování několika modelů pro rozpoznávání emocí ze zvukových dat. Tyto modely jsou založené na umělých neuronových sítích. Modely jsou následně použity pro vytváření příznaků ze zvukových dat. V multimodálních modelech jsou tyto příznaky spojeny s jejich textovými protějšky a použity pro multimodální predikci emocí. Úspěšnost tohoto systému je vyhodnocována na ECF, RAVDESS a IEMOCAP datasetech.
Abstract in different language:	Multimodal emotion recognition involves correctly classifying the emotion from data involving multiple modalities. There are several viable modalities when it comes to emotion recognition. Facial movements, text, voice, and video of the speaker. This thesis focuses on audio and textual modalities for emotion recognition. First, feature extraction from audio data is performed. Subsequently, these features are used for training several audio emotion recognition models, that are based on Artificial Neural Networks. These audio emotion recognition models are then used to create audio feature extraction vectors. In the multimodal deep learning models, these audio feature vectors are combined with their textual counterparts for multimodal emotion recognition. The performance of this system is evaluated on ECF, RAVDESS, and IEMOCAP datasets.
Rights:	Plný text práce je přístupný bez omezení
Appears in Collections:	Diplomové práce / Theses (KIV)

Files in This Item:

File	Description	Size	Format
A21N0080P_DP.pdf	Plný text práce	1,66 MB	Adobe PDF	View/Open
A21N0080Pposudek-op.pdf	Posudek oponenta práce	1,01 MB	Adobe PDF	View/Open
A21N0080Phodnoceni-ved.pdf	Posudek vedoucího práce	28,89 kB	Adobe PDF	View/Open
A21N0080Pobhajoba.pdf	Průběh obhajoby práce	205,06 kB	Adobe PDF	View/Open

Show full item record

Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/57235

search

navigation