Optimalizace rychlosti výběru řečových jednotek v konkatenační syntéze řeči

Kala, Jiří

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Matoušek, Jindřich
dc.contributor.author	Kala, Jiří
dc.date.accepted	2015-01-20
dc.date.accessioned	2016-03-15T09:10:58Z	-
dc.date.available	2010-09-01	cs
dc.date.available	2016-03-15T09:10:58Z	-
dc.date.issued	2015
dc.date.submitted	2014-09-30
dc.identifier	62071
dc.identifier.uri	http://hdl.handle.net/11025/20640
dc.description.abstract	Tato disertační práce se zabývá optimalizací procesu výběru jednotek v konkatenační syntéze řeči, přičemž hlavním zaměřením je urychlení vyhledání optimální sekvence řečových segmentů. Klíčovým problémem této úlohy je nutnost vyhledat cestu s minimální cenou napříč velmi rozsáhlým grafem tvořeným možnými realizacemi řečových jednotek, což vede na obrovské množství kombinací a nutnosti vypočítat i odpovídající množství ohodnocení hran grafu čítající až desítky miliónů operací. Součástí práce je řada analýz složení promluv vygenerovaných pomocí běžně užívaného Viterbiova algoritmu, jehož nevýhodou jsou velmi vysoké výpočetní nároky. V rámci práce bylo navrženo a testováno množství algoritmů, které lze rozdělit do dvou skupin. První skupinu tvoří algoritmy, jež doplňují Viterbiův algoritmus o optimalizační techniky snižující nezbytný počet vyhodnocení cen cíle. Ve druhé skupině jsou algoritmy založené na původní myšlence využití souvislých řetězců s nulovou cenou řetězení, tj. úseků původní nahrávky z původního řečového korpusu nahraného lidským řečníkem (řetězce jsou značeny zkratkou ZCC z angl. zero concatenation cost). Výsledkem experimentů jsou dva srovnatelné algoritmy, které umožňují zvýšit velmi významně rychlost procesu výběru jednotek (přibližně 500x) při zachování kvality generované řeči. Kvalita výstupu pro oba algoritmy byla ověřena i pomocí poslechových testů. Doplňkovým tématem práce byla i analýza vzniku nežádoucích artefaktů způsobených buď výběrem řečového segmentu s nevhodnou délkou na dané pozici promluvy nebo zřetězením dvou kandidátů s odlišným průběhem frekvence základního hlasivkového tónu. V rámci práce byla navržena opatření jak vzniku artefaktů předcházet, čímž bylo dosaženo ještě vyšší kvality syntetické řeči ve srovnání s původním Viterbiovým algoritmem.	cs
dc.format	153 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	cs	cs
dc.publisher	Západočeská univerzita v Plzni	cs
dc.relation.isreferencedby	https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=62071	-
dc.rights	Plný text práce je přístupný bez omezení.	cs
dc.subject	syntéza řeči	cs
dc.subject	výběr jednotek	cs
dc.subject	viterbi	cs
dc.subject	viterbiův algoritmus	cs
dc.subject	zero-concatenation-cost	cs
dc.subject	zcc řetězec	cs
dc.subject	trvání	cs
dc.subject	f0	cs
dc.title	Optimalizace rychlosti výběru řečových jednotek v konkatenační syntéze řeči	cs
dc.title.alternative	Speed Optimization of Unit Selection Algorithm in Concatenative Speech Synthesis	en
dc.type	disertační práce	cs
dc.thesis.degree-name	Ph.D.	cs
dc.thesis.degree-level	Doktorský	cs
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-program	Aplikované vědy a informatika	cs
dc.description.result	Obhájeno	cs
dc.rights.access	openAccess	en
dc.description.abstract-translated	This thesis addresses the optimization of the unit selection process in a concatenation synthesis and it mainly focuses on speeding-up the search for the optimal speech segments sequence. The key problem of this task is the need to find the minimal cost path through the graph consisted of all available unit candidates. This leads to a huge amount of acceptable combinations, and therefore the need to compute an adequate number of graph edges costs counting up to tens of millions of operations. The work incorporates the analysis of speech utterances synthesized using common the Viterbi algorithm, which has a major drawback of being computationally demanding. Within the work a number of algorithms were proposed and tested. These algorithms can be divided into two specific groups. The first group is made up of modifications of the original Viterbi scheme, which introduces optimization techniques to decrease the necessary amount of concatenation cost evaluations. Algorithms in the second group are based on the novel idea of using continuous chains of speech segments, which correspond to larger chunks from the original speech corpora. These chains do not require compute concatenation cost between containing speech segments, as it always has a zero value (therefore, they are denoted as ZCC - zero concatenation cost). The research resulted in two comparable algorithms, both of which significantly increased the speed of the unit selection process (approx. 500x), while the quality of the produced synthetic speech was maintained. The quality of the TTS system output was also evaluated and verified by listening tests. The additional topic of this work was the analysis of unwanted artifacts. These unwanted artifacts are caused by either selecting the speech segment which has an inappropriate length, or by concatenating two candidates of which the fundamental frequency has a different tendency. During the work, methods to prevent the causing of unwanted artifacts were designed and thus the quality of speech was improved in comparison with the original Viterbi algorithm.	en
dc.subject.translated	speech synthesis	en
dc.subject.translated	concatenative speech synthesis	en
dc.subject.translated	unit selection	en
dc.subject.translated	viterbi algorithm	en
dc.subject.translated	zero-concatenation-cost chain	en
dc.subject.translated	duration	en
dc.subject.translated	f0	en
Vyskytuje se v kolekcích:	Disertační práce / Dissertations (KKY)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
dp.pdf	Plný text práce	3,68 MB	Adobe PDF	Zobrazit/otevřít
oponent-posudky-odp-kala.pdf	Posudek oponenta práce	2,8 MB	Adobe PDF	Zobrazit/otevřít
obhajoba-protokol-odp.pdf	Průběh obhajoby práce	835,79 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/20640

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace