Mama má Emu alebo ako sa počítače učia rozprávať

Každý z nás sa už v nejakej forme stretol so syntézou reči. Kým kedysi sme si mohli byť istí, že počúvame umelý hlas, dnes sú už rozdiely nepatrné a čoskoro bude naozaj náročné rozoznať skutočného človeka od hlasu generovaného počítačom.

Vypočujte si náš podcast venovaný syntéze reči. Celý text aj s ukážkami a ďalšími zaujímavými odkazmi nájdete nižšie v článku.

Hádanka

Začnime hádankou. Je hlas v ukážke umelý, alebo reálny?

Ak ste typovali, že hlasy z nahrávky sú syntetické, máte pravdu. Mimochodom, aj vám pripomínajú hercov Dagmar Sanitrovú a Ondreja Kaprálika? Ich skutočnými menami si sám nie som istý. Isté však je, že ide o zatiaľ najnovšie hlasy z dielne spoločnosti Microsoft. Ak ste práve zatúžili čítať si nimi články na internete, môžete si to vyskúšať. Hlasy sú už dostupné v prehliadači Microsoft Edge, ktorý nájdete v systéme Windows od verzie 8. Po načítaní webovej stránky v MS Edge stačí stlačiť skratku ctrl+shift+u a sprístupnia sa nám možnosti predčítania. Zatiaľ je dostupný len ženský hlas. Ostatné si môžete vyskúšať na stránkach Microsoftu. Tieto hlasy však zatiaľ nie sú dostupné pre čítače obrazovky ako JAWS či NVDA.

Trochu teórie: Ako sa počítače učia rozprávať

Na vlakových staniciach môžete počuť hlas (niekedy úsmevne nazývaný aj plechová huba), ktorý vám oznámi čas príchodu vlaku, jednotlivé stanice, prípadne meškanie. V tomto prípade ide o umelý hlas, ale nie o syntézu reči. Celý systém funguje nasledovne: Živý človek v štúdiu nahrá všetky hlášky, s ktorými sa na stanici alebo vo vlaku môžeme stretnúť. V našom prípade názvy staníc, ale aj samostatne hodiny a minúty. Pri staniciach musí nahrať názvy tak, aby sa končili stúpajúcim, aj klesajúcim hlasom, prípadne aj so spojkou A, aby sme mohli vytvárať vetné konštrukcie, v ktorých je stanica na začiatku, uprostred i na konci vety. Všetko toto sa uloží do samostatných súborov. Keď už toto všetko máme, môžeme si nechať vygenerovať takéto úsmevné hlásenie:

Takto pripravený hlas nám však nedokáže prečítať knihu či e-mail. Nedokáže ani vysloviť mimoriadnu situáciu, s ktorou sme pri nahrávaní nerátali. Preto potrebujeme oveľa menšie úseky reči, z ktorých môže počítač skladať slová a vety. Tu už začíname hovoriť o syntéze reči. Konkrétne o tzv. konkatenačnej syntéze. Ide o syntézu reči, s ktorou sa dnes stretávame najčastejšie. Ak používate hlas Wintalker voice od spoločnosti Rosasoft, či hlas Laura od firiem Codefactory resp. Nuance Vocalizer, ide práve o konkatenačnú syntézu reči. Aj v tomto prípade potrebujeme na začiatku živého človeka. Napríklad Mariana Horaniča. Marián prečíta v štúdiu pred mikrofónom niekoľko stránok textu v Slovenčine. Nahrávku následne rozstriháme na slabiky, samohlásky a spoluhlásky. Zohľadníme aj to, že slabiky znejú inak vzhľadom na to, aké písmená idú pred nimi a za nimi. Keď toto všetko máme, počítač sa už postará o zvyšok. Pravda, pre zjednodušenie teraz nachvíľu zabudneme na skutočnosť, že to celé treba naprogramovať tak, aby hlas mohli používať rôzne aplikácie. Na konci máme hlas Marián, ktorý je súčasťou balíka Wintalker voice.

Nepodarilo sa mi získať pôvodný zvukový materiál, z ktorého vznikol hlas Marián. Jiří Mojžíšek však zverejnil nahrávku, ktorá dokumentuje, ako môže vyzerať výroba syntetického hlasu:

Ach tá slovenčina, alebo prečo to rozprává také nezmysli

Výhodou rečovej syntézy je, že dokáže prečítať akýkoľvek text. Nezamrzne ani na jazykolame “strč prst skrz krk” či “popukané pukance popukali na popukanej panvici plnej popukaných pukancov”.

Ale ako je možné, že nedokáže prečítať takúto vetu? “Jano si zavesil gate spolu s bundou na vešiak. Na vešiaku sa už sušili bundy turistov. Lucia sa nemo prizerala, zatiaľ čo sa Jano presunul do kuchyne.”

Vrátime sa ešte na chvíľu k tomu, ako sa takýto hlas vyrába. Už vieme, že počítač skladá slová a vety z nahratých slabík, samohlások a spoluhlások. My však potrebujeme počítač naučiť aj pravidlá slovenského pravopisu. Musí vedieť, že teta čítame mäkko, teda ťeta. Ale v slove teraz čítame tvrdo, teraz. Preto náš hlas potrebuje aj pravidlá. Tu žiaľ narážame na to, že dnešné hlasy sa riadia mnohými pravidlami, ktoré si protirečia. Napríklad chceme, aby náš hlas poznal najčastejšie používané skratky. Naučíme ho, že skratka jan znamená január. Nemôžeme sa ale čudovať, že ak si do telefónneho zoznamu uložíme niekoho ako “Jan Mrkvicka”, hlas ho premenuje na Januára Mrkvicku. Takisto chceme, aby náš hlas vedel rozpoznať najčastejšie anglické slová. A tak ho naučíme, ako vysloviť gate (gejt, anglicky brána). Čo sa stane s našimi gaťami už pocítili na vlastnej koži mnohí milovníci beletrie. Žiaľ, tvorcovia hlasov pre Slovenský jazyk ani za niekoľko rokov neboli ochotní pravidlá zjednodušiť tak, aby hlas priveľmi nerozmýšľal, ale hlavne čítal to, čo je skutočne napísané.

Aké hlasy môže mať náš počítač či smartfón

Na začiatok smutná správa. Hlasov, ktoré by sme mohli používať či striedať v našich zariadeniach je v porovnaní s inými jazykmi žalostne málo. Je ich tak málo, že ich môžeme všetky spomenúť v tomto texte a ak som na nejaký zabudol, napíšte mi na ondrej zavináč ondrosik bodka sk.

Wintalker voice

Hlasový výstup Wintalker voice ponúka niekoľko mužských a ženských hlasov v Slovenčine a Češtine. Môžete ho používať s čítačmi obrazovky v systéme Windows a takisto je možné používať ho so smartfónmi s operačným systémom Android. Môžete ho zakúpiť napríklad v spoločnosti Tyflocomp. Dovolím si tvrdiť, že hlasy od Rosasoftu pozná väčšina nevidiacich. Keďže názov firmy má niečo spoločné s mojim priezviskom a v tejto polohe hlasy asi nepoznáte, dovolím si sem vložiť ukážku, ktorá vznikla za dlhých večerov počas môjho stredoškolského štúdia. Snáď mi bude odpustené.

Vocalizer

Hlasy od spoločnosti Nuance Vocalizer sú dostupné v Slovenčine, Češtine, prípadne nimi môžete čítať aj texty v Maďarčine a ďalších jazykoch. Zaujímavosťou je, že ide o jediné hlasy, ktoré sú dostupné v zariadeniach od firmy Apple. Tieto hlasy je možné používať s čítačmi obrazovky NVDA JAWS v systéme Windows, ale tiež aj v smartfónoch s operačným systémom Android.

Hlas Google

Tento hlas je automaticky dostupný v zariadeniach s operačným systémom Android. Ovláda Slovenčinu, Češtinu a mnohé ďalšie jazyky.

Filip

V úvode tohto článku sme počuli dva hlasy od spoločnosti Microsoft. Ich použitie je zatiaľ dosť obmedzené. Tretí hlas sa však dá použiť s čítačmi obrazovky a je už priamo súčasťou operačného systému Windows od verzie 8. Volá sa Filip.

Rozlúčíme sa s Melániou?

Firma Speechtech takisto vyvíjala v minulosti balík hlasov, medzi ktorými bol Slovenský hlas Melánia. V čase písania tohto textu však hlas nie je viac možné do mobilných zariadení s operačným systémom Android nainštalovať. Speechtech takisto ponúka hlasy pre operačný systém Windows. Žiaľ, pri ich testovaní sme sa stretli s viacerými prekážkami a hlasy nebolo možné plnohodnotne používať. Prichádzame tak o hlas so zamatovým prejavom a relatívne dobre spracovaným slovníkom. Ak viete, čo firma s hlasmi zamýšľa, napíšte mi na ondrej zavináč ondrosik bodka sk

Jedni ho milujú, druhí nenávidia

Ovláda viac ako sto jazykov a pritom zaberá len pár megabajtov pamäte. Dokáže čítať neuveriteľnou rýchlosťou.

Hlasová syntéza eSpeak je dostupná pre operačný systém Windows a mnohí si ho spájajú hlavne s čítačom obrazovky NVDA. ESpeak môžete však používať aj na smartfónoch s operačným systémom Android. Prečo vôbec spomínať hlas, ktorý znie ako robot? Medzi nesporné výhody eSpeaku patrí jeho presnosť. Keďže ide o rečovú syntézu s otvoreným kódom, dobrovoľníci postupne pracujú na jeho vylepšeniach a to sa týka aj Slovenčiny. Navyše má rýchlu odozvu aj na pomalších počítačoch a nepotrebuje veľa pamäte. Mimochodom, pri písaní tohto článku používam práve eSpeak. No a ak už pre nič iné, eSpeak nám pomôže pochopiť ešte jeden spôsob, ktorý sa v minulosti využíval na tvorbu rečovej syntézy.

Historické okienko

Keď počúvame eSpeak, máme dočinenia s tzv. formantovou syntézou reči. A tu už ide o syntézu v pravom slova zmysle, lebo tento hlas pracuje s minimálnym množstvom vzoriek reálneho hlasu. Presnejšie, reálne sú nahraté len spoluhlásky. Všetko ostatné je tvorené rôznymi úpravami a moduláciami zvukových vĺn. Konkrétne máme k dispozícii tóny a šum. Pomocou rôznych filtrov vznikajú samohlásky a spoluhlásky. Sú ľudia, ktorí na eSpeak nedajú dopustiť a potom takí, ktorých po prvých vetách rozbolí hlava. Kam patríte vy?

eSpeak vznikol v roku 1995 a patrí medzi pár historických hlasov, ktoré používame aj dnes. Hlas, ktorý poznáme z balíka Wintalker voice ste mohli počuť už v roku 1993. Jeho autorom je Rostislav Sáček a pôvodne sa volal CS-VOICE. Išlo o hlas určený pre operačný systém Windows vo verzii 3.

Keď je reč o syntéze reči, nemôžeme zabudnúť na Wolfganga von Kempelena. Ten sa narodil v roku 1734 v Bratislave. Kempelen skonštruoval prvý hovoriaci stroj. Ten pripomínal gajdy a vytváral zvuky podobné ľudskej reči. Vypočujte si Zracast EP. 18: Wolfgang von Kempelen. Pravda, v tom čase nešlo o počítačom generovanú syntézu. Ale v roku 1990 sa na trh dostali hovoriace kalkulačky firmy Kempelen:

Predstavte si, že procesor, ktorý sa staral vtedy o syntézu reči, mal len 1 KB pamäte. Povedané inak, text tohto článku spolu so sprievodnými zvukovými nahrávkami by sa do tej pamäte nevošiel. Autorom použitej rečovej syntézy je už spomínaný Jiří Mojžíšek. Do výslednej podoby ho upravil Ing. Vrána.

Viackrát som už spomenul Jiřího Mojžíška. Jeho prínos pre vývoj syntézy reči v našich podmienkach je nezanedbateľný. Ide o nevidiaceho húževnatého programátora, ktorý ešte zažil éru diernych pások. Predstavte si, že na vygenerovanie tohto textu syntézou reči ste vtedy potrebovali asi desať minút. Sme približne v roku 1977.

Mnohé syntetické hlasy nemali dlhú trvácnosť a prakticky sme sa s nimi ani nemohli stretnúť. Pripomeňme si ale tie, ktoré pamätníci ešte môžu rozpoznať:

Hlas zápisníka Eureka a4:

Hlas zápisníka Aria:

Hlas Juno z dielne firmy Dolphin:

Čo nás čaká ďalej

Vrátime sa späť do súčasnosti. Aj výrobu syntézy reči výraznou mierou ovplyvňuje umelá inteligencia. Pokiaľ sme doposiaľ používali konkatenačnú syntézu reči, čoraz viac sa budeme stretávať so syntézou reči vyrobenou pomocou neurónových sietí a umelej inteligencie. Kým kedysi bolo potrebné posadiť sa do štúdia a za kvalitným mikrofónom načítať hodiny textu, čoskoro bude možné z malej vzorky vyrobiť umelý hlas na nerozoznanie od originálu. A nie sme už vôbec ďaleko.

Začiatkom roka 2021 spoločnosť Acapela sprístupnila svoj nástroj na tvorbu hlasov. Presnejšie, pribudla do zoznamu podporovaných jazykov aj Čeština. Služba My own voice je určená pre ľudí, ktorým hrozí strata hlasu. Napríklad v dôsledku rakoviny, ALS alebo podobnej choroby. Idea je taká, že si svoj hlas nahrajú, uložia do tzv. banky a po strate hlasu budú text písať a počítač bude hovoriť ich hlasom. Systém si môže vyskúšať ktokoľvek. Stačí sa registrovať a postupne nahrať 50 viet. Takto znie môj hlas:

Pravda, má mnohé nedostatky. Je potrebné si však uvedomiť, že ide o testovaciu verziu a výsledok by bol oveľa lepší, ak by som do systému nahral povedzme hodinu záznamu a použil by som akusticky upravenú miestnosť. Ukážka však dobre ilustruje, že nie sme ďaleko od doby, keď bude možné synteticky replikovať akýkoľvek ľudský hlas.

Hlasy, ktoré dnes počujeme v produktoch Google či Microsoft nezaraďujeme medzi konkatenačnú syntézu reči. Tieto hlasy už vznikli pomocou umelej inteligencie. Na záver si môžeme položiť niekoľko otázok: Dospejeme raz do doby, že nebude možné rozlíšiť hlas reálnej osoby od hlasu generovaného počítačom? Budeme sa stretávať s tým, že niekto mojim hlasom vygeneruje vetu a bude tvrdiť, že som niečo povedal, pričom to nebude pravda? Zmení sa situácia s hlasom Laura, keďže firmu Nuance odkúpil Microsoft? A napokon je tu ešte dôležitá otázka ohľadom súkromia a bezpečnosti: Bude možné inteligentným hlasom dôverovať? Niektoré dnes dostupné hlasy (konkrétne od Googlu a Microsoftu) sú na cloude. To znamená, že text sa z nášho počítača odošle na server, tam sa spracuje a zvuková nahrávka sa vráti späť na náš počítač. Dôvodom takéhoto postupu je fakt, že tieto hlasy sú náročné na výkon a keby sme ich chceli používať priamo na svojom zariadení, reagovali by pomaly a spotrebovali by priveľa energie.

Zdroje

Pri zostavovaní tohto textu som okrem vlastných skúseností čerpal aj z viacerých zdrojov. Niektoré použité ukážky sú z publikácie Malé nahlédnutí do historie hlasových syntéz. Záujemcom tiež odporúčam prečítať článok Hlasová syntéza prešla do ultimátnej úrovne – vitajte v novej ére.Audiořečová syntéza


Ondrej Rosík
V súčasnosti pracujem ako redaktor a moderátor v Rádiu Lumen. Venujem sa prekladu NVDA a Som betatesterom setu aplikácií Corvus. Medzi voľnočasové aktivity patrí hudba a čítanie beletrie.