Rozpoznávání fónů pomocí neuronové sítě

Majer, Martin

Název:	Rozpoznávání fónů pomocí neuronové sítě
Další názvy:	Phoneme recognition using a neural network
Autoři:	Majer, Martin
Vedoucí práce/školitel:	Šmídl Luboš, Ing. Ph.D.
Oponent:	Švec Jan, Ing. Ph.D.
Datum vydání:	2018
Nakladatel:	Západočeská univerzita v Plzni
Typ dokumentu:	diplomová práce
URI:	http://hdl.handle.net/11025/31769
Klíčová slova:	rozpoznání fonémů;dopředná neuronová síť;rekurentní neuronová síť;long short-term memory;gated recurrent unit;connectionist temporal classification
Klíčová slova v dalším jazyce:	phoneme recognition;feedforward neural network;recurrent neural network;long short-term memory;gated recurrent unit;connectionist temporal classification
Abstrakt:	Tato práce se zabývá klasifikací fonémů pomocí různých architektur neuronových sítí. V první části práce je představena obecná teorie dopředných a rekurentních neuronových sítí a následně metoda CTC (connectionist temporal classification). Ve druhé části je pak vyhodnocena přesnost rozpoznání šesti navržených architektur nad čtyřmi parametrizacemi pro dvě datové sady o různé velikosti. Ukázalo se, že rekurentní neuronová síť využívající dvě obousměrné LSTM vrstvy a metodu CTC dosahuje velmi vysoké přesnosti, ale pouze díky využití informace z celé nahrávky. Proto byla testována i její varianta s omezenou délkou vstupní sekvence, která pro tuto úlohu rovněž ukázala velký potenciál a mohla by být využita pro rozpoznávání v reálném čase.
Abstrakt v dalším jazyce:	This thesis focuses on the phoneme recognition using various architectures of neural networks. The first part introduces theory of feedforward and recurrent neural networks followed by the introduction of the method CTC (connectionist temporal classification). The second part presents comparison of accuracy of recognition between six architectures on four parametrizations generated from two datasets of various size. It was shown that the recurrent neural network using two bidirectional LSTM layers combined with CTC achieved high accuracy although only due to using information from the whole recording. Therefore its alternative version which used a limited length of the input sequence was tested and also showed large potential and could be possibly used for recognition in real-time.
Práva:	Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KKY)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
dp_mmajer.pdf	Plný text práce	945,43 kB	Adobe PDF	Zobrazit/otevřít
majer-v.pdf	Posudek vedoucího práce	541,81 kB	Adobe PDF	Zobrazit/otevřít
majer-o.pdf	Posudek oponenta práce	663,73 kB	Adobe PDF	Zobrazit/otevřít
majer-p.pdf	Průběh obhajoby práce	349,18 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/31769

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace