EVALUACIJA RAZLIČITIH ASPEKATA KVALITETA SINTETIZOVANOG GOVORA
Milan Sečujski, Darko Pekar
Fakultet tehničkih nauka, Novi Sad; AlfaNum d.o.o, Novi Sad
secujski@uns.ns.ac.yu
KRATKI SADRŽAJ
U radu će biti opisan eksperiment evaluacije poje-dinih aspekata kvaliteta sintetizovanog govora, čiji je cilj bio da utvrdi da li se slušaoci u oceni kvaliteta sinteze više oslanjaju na razumljivost na nivou fonema ili na prirodnost intonacije. U okviru eksperimenta je takođe ispitana opravda-nost sinteze korišćenjem prirod-ne f0 krive preuzete iz druge rečenice sa istom akcenat-skom strukturom ali drukčijim informacionim sadržajem i drukčijom sintaksnom struk-turom.
1. UVOD
Evaluacija kvaliteta sintetizovanog govora predstav-lja dobro poznat i još uvek ne na zadovoljavajući način rešen problem, s obzirom da kvalitet sintetizovanog govora obuhvata različite faktore koji nisu međusobno nezavisni. Zbog toga još uvek kao jedini pristup evalu-aciji preostaju testovi slušanja, u kojima ispitanici sintetizovanim govornim celinama dodeljuju ocene na osnovu MOS (engl. Mean Opinion Score) skale. Na ovaj način moguće je porediti i različite sintetizatore govora (pod uslovom da se testiraju istovremeno), kao i procenjivati doprinos različi-tih faktora ukupnom kvali-tetu sintetizovanog govora.
AlfaNumTTS sintetizator za srpski jezik [5] koriš-ćen u ovom eksperimentu pripada grupi konkatenativnih sinteti-za-tora koji se oslanjaju na velike govorne baze iz kojih u vreme sinteze biraju najpogodnije segmente snimlje-nog govora, koje zatim povezuju, uz prethodnu odgova-rajuću obradu, mahom koristeći TD-PSOLA model govora. Izbor materijala nad kojim je vršena evaluacija bio je motivisan činjenicom da srpski jezik pripada grupi tonskih jezika, te da kretanje visine glasa ima izraženiju leksičku funkciju nego u jezicima sa udarnim akcentom. Sam eksperiment motivisan je željom da se na datom materijalu utvrdi relativni doprinos pojedi-nih aspekata kvaliteta sintetizovanog govora opštem utisku slušaoca, koji je, premda krajnje subjekti-van, i dalje jedini defini-tivni pokazatelj kvaliteta.
1.1. Kvalitet sintetizovanog govora
Kao najznačajniji faktori kvaliteta sintetizovanog govora pominju se razumljivost sintetizovanog govora i njegova prirodnost [1].
Razumljivost sintetizovanog govora predstavlja za-pra-vo kvalitet sinteze na nivou svakog glasa pojedi-načno. Ukoliko je artikulacija svakog glasa pojedinačno prirodna i razgovetna, takav govor će biti razumljiviji. Ako se, međutim, u sintetizovanom govoru osećaju artefakti koji su posledica grešaka u korišćenoj govornoj bazi ili zahvata digitalne obrade na samom govornom signalu, i govor u celini će biti manje razumljiv. Slušalac je, međutim, često u stanju da rekonstruiše oštećene glaso-ve, pogotovo ukoliko se radi o smislenim govornim celinama - tada se može osloniti i na širi kontekst. Zbog toga se za evaluaciju same razumljivosti na nivou rečenice često koriste i setovi rečenica koje su anomalne, u smislu da oštećene ili nedostajuće elemente nije tako lako rekonstruisati na osnovu sadržaja, premda su same rečenice sintaksno ispravne. Primeri rečenica iz standardnog Haskinsovog seta za ocenu razumljivosti za engleski jezik su:
- The great car met the milk.
- The short arm sent the cow. [2]
Pored ovoga, često se koriste i semantički nepred-vidljive rečenice (engl. Semantically Unpredictable Sentences - SUS) u kojima se slučajno odabrane reči uklapaju u definisane sintaksne obrasce, tako da se dobijaju rečenice slične onima iz Haskinsovog seta, čiji je najveći nedostatak što su fiksne, tako da kod njih može doći do izražaja efekat učenja [2]. Razum-ljivost sintetizovanog govora u tesnoj je vezi i sa tim koliko je on prijatan za slušanje i s kolikom se lakoćom može usvojiti saopštena informacija. Ukoliko slušalac mora da se koncentriše ne bi li uspeo da poveže zvuke koje je čuo u smislene celine, dešava se i da kasnije uopšte nije u stanju da odgovori na pitanje o čemu se u tekstu radilo [3]. Osim toga, sa ovim je direktno po-vezano i pitanje za koje vreme kod slušaoca sintetizova-nog govora nastupa zamor.
Prirodnost sintetizovanog govora definiše se kao njegova sličnost sa prirodnim govorom. Da bi se iz te definicije, koliko je to moguće, isključio uticaj onoga što je već pokriveno razumljivošću, prirodnost se može poisto-vetiti sa utiskom slušaoca o sličnosti intonacije sinteti-zovane rečenice sa intonacijom koju bi, sa istim materijalom, imao prirodni govor. Jasno je, međutim, da se ni ovako definisana prirodnost ne može potpuno razdvojiti od razumljivosti, jer je rekonstrukcija nedo-stajućih ili oštećenih glasova tim lakša što se slušalac u većoj meri može osloniti na smisao, a smisao se, između ostalog, prenosi i ispravnom intonacijom.
Treba naglasiti da kvalitet sinteze u širem smislu ne podrazumeva samo kvalitet samog govora, već i sposobnost sistema da pretvara u govor i one delove teksta koji ne predstavljaju ortografske reči, kao što su brojevi i skraćenice, i to uvek na odgovarajući način u zavisnosti od konteksta. Jasno je da će grube greške u ovoj, prvoj fazi obrade teksta umanjiti razumljivost govora u širem smislu, tako da ni ovaj aspekt kvaliteta nije neza-visan od ostalih. Međutim, u ovom radu se o njemu neće voditi računa, već će se smatrati da se tekst sastoji isključivo od ortografskih reči.
1.2. Srpski kao tonski jezik
Srpski jezik pripada relativno malobrojnoj grupi tonskih jezika. To znači da, za razliku od jezika sa udarnim akcentom, u kojima slog jednostavno može biti naglašen i nenaglašen, i ne postoje minimalni parovi reči koji bi se razlikovali samo po promenama visine glasa u toku izgovora, u srpskom jeziku različit akcenat, odnosno, različito kretanje visine glasa u toku izgovora, može da ukaže na razliku u morfološkoj kategoriji:
(reči [gen.jed.]-réči [gen.mn.])
pa i u leksičkoj reči:
(blâga[imenica]-blága[pridev]).
Kod jezika sa udarnim akcentom, varijacije u kretanju visine glasa češće prenose pragmatičku informaciju, dok kod tonskih jezika ove varijacije često imaju i leksičku ulogu, pa ih je samim tim, sa aspekta sinteze govora, neophodno uzeti u obzir pri realizovanju kvalitetnog sistema za sintezu govora. Značaj same visine glasa kao elementa prozodije, kao i činjenice da je ona u tolikoj meri uslovljena akcentuacijom, dao je ideju da se f0 kriva koja odgovara jednoj rečenici može uz odgovara-juće modifikacije preneti i na druge reče-nice sa identičnom akcenatskom strukturom, te da je moguće uporediti rečenice generisane na osnovu preuzete f0 krive sa rečenicama čija je f0 kriva generisana isključivo na osnovu akcenatske strukture. Rezultati testova sluša-nja ovako sintetizovanih rečenica prikazani su, između ostalog, u sledećem odeljku.
2. EKSPERIMENT
U ovom odeljku biće opisan sam eksperiment evalu-acije aspekata kvaliteta sintetizovanog govora, dobije-nog korišćenjem AlfaNumTTS sintetizatora govora na srpskom jeziku. Eksperiment je izvršen u laboratorij-skim uslovima, na Fakultetu tehničkih nauka u Novom Sadu, tokom jula 2004, obuhvatio je 10 subjekata koji su slušali po 5 parova rečenica sintetizovanih u ukupno 9 različitih varijanata.
2.1. Materijal nad kojim je vršena evaluacija
Ideja eksperimenta bila je da se, s obzirom na značaj f0 kao elementa prozodije, i na činjenicu da je ona u tonskom jeziku kao što je srpski u velikoj meri uslovlje-na akcentuacijom, ispita da li se i koliko može popraviti kvalitet sintetizovanog govora ukoliko se rečenica sinte-ti--zuje ne na osnovu f0 krive automatski generisane na osnovu akcentuacije, već na osnovu f0 krive preuzete iz druge rečenice sa istom akcentuacijom. Primera radi, ukoliko se u govornoj bazi nalazila rečenica
Na???ši ku?movi su na vréme otišli
tada je na osnovu nje konstruisana druga, takođe smislena reče-nica, sa identičnom akcenatskom struktu-rom, a različitim fonetskim sadržajem i u opštem slu-čaju različitim naglašenim vokalima:
Ne? znam da? li će da prežívi odlazak
Zatim je iz originalne rečenice izolovana f0 kriva, i modifikovana tako da se delovi originalne f0 krive koji se odnose na vokale pozicioniraju takođe na vokalne delove ciljne reče-nice, a da se pritom ispoštuju trajanja fonema iz ciljne rečenice. Primer ovakvog vremenskog poravnanja dat je na slici 1. Na ovaj način su lokalne promene f0, uslovljene akcentuacijom, iz originalne re-če--nice prenesene na ciljnu rečenicu, u kojoj bi, ukoliko su uslovljene isključivo akcentuacijom, morale biti identične. Da na ovaj način ne bi došlo do prevelikog izobličenja f0 krive, povedeno je računa o tome da ukoliko se u originalnoj rečenici nađu dva vokala između kojih ne postoji konsonant, da na odgovaraju-ćem mestu u ciljnoj rečenici konsonant takođe ne postoji.

Slika 1. Vremensko poravnanje f0 krivih
Na osnovu izloženog odabrano je 5 rečenica iz go-vor-ne baze na koju se oslanja AlfaNumTTS sintetizator, i konstruisane su odgovara-juće smislene rečenice sa identičnom akcenatskom struk-turom, kao što je prika-zano u tabeli 1:
Tabela 1. Parovi rečenica korišćeni u eksperimentu

Svaka od ovih rečenica bila je sintetizovana i predstavljena subjektima u tri varijante. Prva varijanta posedovala je f0 krivu koja je bila generisana automatski na osnovu akcentu-acije, pa je stoga bila identična za originalnu i konstrui-sanu rečenicu. Ove rečenice će u daljem tekstu biti obeležavane sa O_AUT i C_AUT. Druga varijanta posedovala je prirodnu f0 krivu preuzetu iz originalne rečenice, i te rečenice će u daljem tekstu biti obeležavane sa O_NAT i C_NAT. Treća varijanta bila je sintetizovana korišćenjem f0 krive koja je dobijena kao aritmetička sredina automatski generisane f0 krive i f0 krive preuzete iz originalne rečenice, i te rečenice će u daljem tekstu biti obeležavane sa O_MIX i C_MIX.
Pored ovih šest varijanata, subjektima su bile pred-stav-ljene još tri. I originalna i konstruisana rečenica bile su sintetizovane sa prirodnom f0 krivom preuzetom iz originalne rečenice, dakle, istom kao u rečenicama O_NAT i C_NAT, ali je u njih namerno uneta degrada-cija u pogledu razumljivosti, tako što je sinteza izvršena na osnovu manjeg dela raspoložive govorne baze, a u sam proces odabira segmenata uneti su još neki ograni-čavajući faktori. Na ovaj način je postignuto da je govor sintetizovan (u opštem slučaju) na osnovu nepovoljnijih seg-me-nata nego da tih ograničenja nije bilo. Te rečenice će u daljem tekstu biti obeležene sa O_DEGR i C_DEGR. Poslednja varijanta predstavljala je rečenicu generisanu isključivo na osnovu segmenata originalne rečenice koja se u celini nalazi u govornoj bazi, dakle bez ikakvih sečenja i spajanja neodgovarajućih segme-nata, ali sa f0 krivom koja je automatski generisana na osnovu akcentuacije, kao u rečenicama O_AUT i C_AUT. Ova rečenica će u daljem tekstu biti obeležena sa O_NOSEG. Postojanje poslednje tri varijante bilo je motivisano željom da se barem u određenoj meri odredi da li je slušaocima bitnija apsolutna prirodnost into-nacije, na osnovu koje bi mogli, oslanjajući se na smisao, da rekonstruišu eventualna oštećenja u pogledu razumljivosti, ili im je razumljivost značajnija i više se oslanjaju na nju.
2.2. Opis eksperimenta
Subjekti su preslušavali pomenutih 5 parova rečeni-ca u okviru 5 slajdova na kojima su im vizuelno bile prikazane u odgovarajućem rasporedu, zajedno sa polji-ma u koja su mogli direktno da upisuju svoje ocene. Subjekti su preslušavali rečenice u tišini, u iden-tičnim uslovima. Subjekti su zamoljeni da daju ocene u skladu sa MOS skalom, pri čemu su ocenjivana tri parametra - pored razumljivosti i prirodnosti intonacije, ocenjivan je i ukupan utisak subjekta, odnosno, kada bi subjekti i sami koristili sistem za sintezu govora, u kojoj meri bi im odgovaralo da sintetizovani govor zvuči baš tako.
Raspored u kom su rečenice bile prikazane na slajdu bio je fiksan, takav da se rečenice čiji su rezultati za-nim--ljiviji za neposredno poređenje na slajdu nađu jedna do druge. Subjekti su mogli da preslušavaju reče-nice proizvoljnim redosledom, ali je od njih zatraženo da obrate pažnju na rečenice koje se na slajdu nalaze jedna do druge i da nastoje upravo njih međusobno da porede prilikom ocenjivanja. Vizuelni raspored rečenica na slaj-dovima prika-zan je na slici 2.

Slika 2. Raspored rečenica na slajdu
Izborom fiksnog rasporeda rečenica donekle je zane-maren efekat redosleda [3], ali je računato da subjekti neće uvek preslušavati rečenice istim redosledom.
2.3. Rezultati eksperimenta
Rezultati eksperimenta (srednja ocena na MOS skali za svaku od sintetizovanih rečenica, po kriterijumima razumljivosti, prirodnosti i opšteg utiska) prikazani su u tabeli 2:
Tabela 2. Rezultati eksperimenta

2.4. Analiza rezultata eksperimenta
Prvo zapažanje je da su rezultati nešto ujednačeniji nego što je očekivano. Ovo se slaže sa komentarima subje-kata - svi mahom imaju utisak da su ocene koje su dali nepouzdane, a poneki imaju utisak da između pojedinih varijanata rečenica nema nikakve razlike (iako će pažlji-vije uho primetiti značajne razlike).
Odgovor na pitanje da li slušaocima više odgovara automatski generisana f0 kriva, koja je potpuno određe-na akcentuacijom, ili prirodna f0 kriva uzeta iz rečenice sa istom akcentuacijom kao u ciljnoj rečenici može se dobiti poređenjem rezultata za C_AUT, C_MIX i C_NAT. Slušaoci smatraju da im je rečenica sa auto-mat-ski generisanom f0 krivom razumljivija od rečenice sa f0 krivom preuzetom iz prirodnog govora, iz druge rečenice sa istom akcenatskom strukturom (razlika u ocenama iznosi 0,62). Štaviše, smatraju i da im zvuči nešto prirodnije (0,22), a što se opšteg utiska tiče, radije bi koristili TTS sistem koji koristi automatski generi-sanu prozodiju (0,56).
Objašnjenje ovog naizgled paradoksalnog rezultata može se potražiti poređenjem sa rezultatima za O_AUT, O_MIX i O_NAT. Ukoliko se sinteza vrši na osnovu f0 krive izvučene upravo iz te rečenice, a ne iz neke druge rečenice sa identičnom akcentuacijom, situacija je znatno drukčija. Tada varijanta rečenice sa prirodnom f0 krivom zvuči ne samo prirodnije (0,88), već i razumlji-vije (0,44), i slušaoci su naklo-njeniji njoj (0,70). Ovo dovodi do zaključka da je f0 kriva ipak pod značajnim uticajem i drugih faktora, ne samo akcentuacije, ili da je pri prenošenju f0 krive sa jedne rečenice na drugu bilo potrebno modifikovati još neke pro-zo-dijske parametre, kao što su trajanja ili energija.
Ovaj zaključak potvrđuje i veoma velika razlika u ocenama O_NAT i C_NAT (0,94 za opšti utisak), koja je posebno izražena na 4. i 5. slajdu. Ovo nije neočeki-vano, s obzirom da su na 4. slajdu obe rečenice emotiv-no relativno obojene - prva je u prvom licu, čak je i glagol istaknut dovođe-njem na prvu poziciju u rečenici, dok druga iznosi lični stav i praktično u sebi sadrži pitanje. Na 5. slajdu je korišćen snimak origi-nalne reče-nice iz baze koji i sâm ima pomalo problema-tičnu f0 krivu, što je naročito došlo do izražaja prilikom primene te krive na drugi informacioni sadržaj. Slična je situacija i pri poređenju rezultata za O_DEGR i C_DEGR gde je su razlike još veće (1,08 za razumlji-vost, 1,12 za prirodnost i čak 1,18 za opšti utisak, sve u korist O_DEGR). Na već pomenutom 4. slajdu razlika u prirodnosti iznosi 1,7, a u opštem utisku čak 2,1 u korist O_DEGR. Ovo sugeriše da prirodnost postaje posebno bitan faktor u uslovima otežane razumljivosti, i to naro-čito ako je sadržaj rečenice emotivno obojen.
Što se tiče pitanja da li se korisnik sintetizatora govora više oslanja na razumljivost ili na prirodnost, dobro je poznato da je to u opštem slučaju veoma individualno, ali je moguće da u evaluaciji kon-kretnog sistema u konkretnim okolnostima varijacija jednog od ta dva parametra ima veći uticaj. Kada su korisnici morali direktno da uporede O_DEGR i O_NOSEG, češće su se opredeljivali za O_DEGR (razlika u pogledu razumljivosti bila je 0,24, u pogledu prirodnosti 0,56, a u pogledu opšteg utiska 0,54). Ovolika razlika u po-gledu opšteg utiska može delovati nelogično, jer bi O_NOSEG sa stanovišta razum-ljivosti trebalo da bude idealna pošto je sintetizovana na osnovu originalnih segmenata. Pored već utvrđene po-ve--zanosti f0 krive i informacionog sadržaja, uzrok ove nelogično-sti mogao bi ležati i u činjenici da sama promena f0 krive ipak dovodi do oštećenja u signalu nad kojim je izvrše-na. Zbog toga rečenica O_NOSEG ipak ne zvuči idealno - ne u smislu intonacije, već u smislu razumljivosti. Mada TD-PSOLA važi za tehniku koja relativno dobro očuva-va integritet govornog signala pri promeni prozodijskih karakteristika, ipak se ne ponaša tako dobro ukoliko te promene nisu uniformne na čitavom signalu. Drugim rečima, ako se f0 kriva čitave rečenice podigne ili spusti u celini za 10%, rezultujuća rečenica će zvučati sasvim prirod-no. Međutim, ako u rečenici na nekim mestima treba podići a na drugim spustiti f0, pa još ako se pritom različite tendencije promene f0 brzo smenjuju, može doći do toga da signal na pojedinim mestima više ne zvuči prirodno, te da se nastale greške pripišu lošoj razumljivosti. Ova činjenica u znatnoj meri usložnjava evaluaciju kvaliteta sinteti-zovanog govora uopšte, pošto predstavlja dodatni faktor međuzavisnosti prirodnosti i razumljivosti.
Da bi bio dobijen konačan odgovor na pitanje u kojoj meri je za opšti utisak bitna prirodnost, a u kojoj razumlji-vost, posmatrani su rezultati za pet varijanata sinteze originalne rečenice (O_AUT, O_MIX, O_NAT, O_DEGR i O_NOSEG) i utvrđena korelacija između brojnog podatka o opštem utisku sa brojnim podacima o razumljivosti i prirodnosti. Tendencija je za svih pet varijanata ista, a to je da je doprinos prirodnosti kod konkretnog sintetizatora znatno veći (euklidsko rasto-janje vekto-ra ocena opšteg utiska od vektora ocena prirodnosti je čak 3,81 puta manje od euklidskog rasto-janja vekto-ra ocena opšteg utiska od vektora ocena razumlji-vosti). Međutim, problem automatskog gene-risanja prozodijskih svojstava koja bi odgovarala ne samo akcentuaciji već i sintaksnoj strukturi i informa-cionom sadržaju ciljne rečenice još uvek je daleko od rešenja.
3. ZAKLJUČAK
U ovom radu detaljno je opisan eksperiment u okviru kog je izvršena evaluacija kvaliteta sintetizo-vanog govora dobijenog korišćenjem AlfaNumTTS sintetizatora, kao i ocena doprinosa pojedinih faktora kvaliteta ukupnom utisku kod slušaoca. Ukazano je na više problema evaluacije kvaliteta sintetizovanog govo-ra i dobijeni su rezultati koji mogu poslužiti kao smer-nice kako daljem razvoju AlfaNumTTS sintetizatora govora, tako i razvoju sinteze govora na srpskom jeziku uopšte.
Pretpostavka o veličini uticaja akcentuacije na izgled f0 krive, pa i čitave prozodije, ovim eksperimentom je donekle potvrđena, što se vidi iz činjenice da je f0 kriva generisana isključivo na osnovu akcentuacije ipak pred-stav-ljala zadovoljavajuće rešenje za znatan broj slu-šalaca. Međutim, pokazalo se da taj uticaj ipak nije toliki da bi se f0 krive slobodno mogle prenositi sa jedne rečenice na drugu rečenicu iste akcenatske konfigu-racije, ne vodeći računa o sintaksnim i drugim razli-kama između njih.
LITERATURA
[1] T. Dutoit: An Introduction to Text-to-Speech Synthesis, Kluwer Academic Publishers, Dordrecht/ Boston/London, 1997.
[2] S. Lemmetty: Review of Speech Synthesis Technology, M.Sc.E.E. Thesis, Helsinki University of Technology, 1999.
[3] Assessing Text-to-Speech System Quality, White Paper, SpeechWorks International.
[4] I. Lehiste, P. Ivić: Word and Sentence Prosody in Serbocroatian, The Massachusetts Institute of Technology, 1986.
[5] M. Sečujski, R. Obradović, D. Pekar, Lj. Jovanov, V. Delić: AlfaNum System for Speech Synthesis in Serbian Language, TSD 2002, Brno, Czech Republic, 2002.
ABSTRACT
The paper contains a description of a TTS quality assessment experiment, aimed at determining whether the listeners tend to form their opinion on the basis of intelligibility or rather prosody naturalness.
The experiment also examines the idea of using natural f0 contour extracted from another sentence with identical accentuation configuration but different infor-mation content and syntax structure for synthesis.
Preuzeto sa http://www.ftn.ns.ac.yu/dogs/dogs2004.htm

