Full metadata record
DC poleHodnotaJazyk
dc.contributor.authorVít, Jakub
dc.date.accepted2023-12-20
dc.date.accessioned2023-12-25T23:10:50Z-
dc.date.available2023-1-9
dc.date.available2023-12-25T23:10:50Z-
dc.date.issued2023
dc.date.submitted2023-2-22
dc.identifier94171
dc.identifier.urihttp://hdl.handle.net/11025/55023-
dc.description.abstractDisertační práce se zaměřuje na nové architektury pro počítačové generování řeči pomocí neuronových sítí. S jejich příchodem došlo k velmi bouřlivému rozvoji nových metod, které umožnily generovat řeč s vyšší kvalitou a přirozeností, než umožňovaly tradiční metody. V teoretické části se uvádí souhrn běžných postupů a důležitých pojmů týkajících se syntézy řeči, jako je například zpracování textu, fonetická abeceda, poslechové testy, anotace a melovský spektrogram. Představeny jsou zde tradiční metody syntézy řeči: konkatenační metoda a statistická parametrická metoda. Teoretická část zároveň popisuje nové architektury neuronových sítí pro syntézu řeči vysoké kvality, a to převážně architektury WaveNet a WaveRNN. Dále je zde představen podpůrný webový nástroj pro vývoj a výzkum syntézy řeči. Experimentální část práce popisuje výstupy, kterých bylo dosaženo vlastní implementací těchto metod na syntézu českého jazyka, a také experimenty, jejichž cílem bylo navrhnout a vyvinout nový systém TTS pro syntézu řeči s vyšší kvalitou než v té době stávající systém, který byl založen na konkatenační metodě. Poslechový test ukázal, že nový systém dosáhl na českém jazyce lepších výsledků. Práce obsahuje i pokusy s trénováním jedné sítě pro více řečníků a také s vícejazyčnou syntézou. Experimenty dále obsahují analýzu trénovacích dat pro nové modely ve srovnání s tradičními metodami. V posledních letech se objevilo značné množství nových architektur, poslední část proto obsahuje jejich ucelený přehled a popisuje podrobněji několik z nich. Jsou zde představeny architektury LPCNet, MelNet, Tacotron, MelGAN, VITS a další. Je zde i diskuse o stávajícím trendu v podobě end-to-end architektur.cs
dc.format120
dc.language.isocs
dc.publisherZápadočeská univerzita v Plzni
dc.rightsPlný text práce je přístupný bez omezení
dc.subjectsyntéza řečics
dc.subjectttscs
dc.subjectneuronové sítěcs
dc.subjectwavenetcs
dc.subjectwavernncs
dc.titleGenerování české řeči pomocí neuronových sítícs
dc.title.alternativeCzech Speech Generation Using Neural Networksen
dc.typedisertační práce
dc.thesis.degree-namePh.D.
dc.thesis.degree-levelDoktorský
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných věd
dc.thesis.degree-programAplikované vědy a informatika
dc.description.resultObhájeno
dc.description.abstract-translatedThis dissertation focuses on new architectures for computational speech generation using neural networks. With their advent, there has been a very vigorous development of new methods that have enabled the generation of speech with higher quality and naturalness than traditional methods have allowed. In the theoretical part, a summary of common procedures and important concepts related to speech synthesis, such as text processing, phonetic alphabet, listening tests, annotation and Mel's spectrogram, is presented. The traditional methods of speech synthesis are introduced: the concatenation method and the statistical parametric method. The theoretical part also describes new neural network architectures for high quality speech synthesis, mainly the WaveNet and WaveRNN architectures. Furthermore, a web-based support tool for speech synthesis development and research is presented. The experimental part of the thesis describes the outputs achieved by the actual implementation of these methods on Czech language synthesis, as well as the experiments aimed at designing and developing a new TTS system for speech synthesis with higher quality than the then existing system, which was based on the concatenation method. The listening test showed that the new system achieved better results on the Czech language. The paper also includes experiments on training a single network for multiple speakers as well as multilingual synthesis. The experiments also include an analysis of the training data for the new models compared to traditional methods. A significant number of new architectures have emerged in recent years, so the last section provides a comprehensive overview and describes several of them in more detail. LPCNet, MelNet, Tacotron, MelGAN, VITS and other architectures are introduced. There is also a discussion of the current trend towards end-to-end architectures.en
dc.subject.translatedspeech synthesisen
dc.subject.translatedttsen
dc.subject.translatedneural networksen
dc.subject.translatedwaveneten
dc.subject.translatedwavernnen
Vyskytuje se v kolekcích:Disertační práce / Dissertations (KKY)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
Disertace_tisk.pdfPlný text práce8,18 MBAdobe PDFZobrazit/otevřít
posudky-odp-vit.pdfPosudek oponenta práce1,05 MBAdobe PDFZobrazit/otevřít
protokol-STAG-odp-vit.pdfPrůběh obhajoby práce463,5 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/55023

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.