Hogyan működik beszédszintézisre

Nyomtatható változat

Szintézis beszéd ma az úgynevezett technológia, amely képes átalakítani szöveges információt közös beszédet. A fejlesztés az „intelligens gépek”, ez a technológia egyre fontosabbá válik, és minden nap újabb és újabb igényeket tökéletesség. Tulajdonképpen abban a pillanatban, az általunk kifejlesztett számos módszer a beszéd, amelyet beszélünk.

Tehát, úgy a több technológiák és módszerek a beszédszintézisre. Mint már említettük, számos módszer a beszéd szintézis. Így számos alapvető megközelítés:

parametrikus szintézis;
konkatenáció (összeállítása) szintézis;
Szintézis szabályai (nyomtatott szöveg);

Parametrikus szintézis lehetővé teszi, hogy rögzítse minden nyelvet, de azt nem lehet használni a nem előre meghatározott szöveget. Parametrikus beszédszintetizátor akkor alkalmazzák, amikor egy sor üzenetet korlátozódik. A minőségi Ezen szintézis eljárás nagyon magas lehet.

Tény, hogy egy parametrikus beszéd - a megvalósítása a működési elve a vocoder. Abban az esetben, a szintézis a parametrikus audiojel bemutatott bizonyos számú folyamatos változó paraméterek. Kialakításához a magánhangzók a hang-generátort használnak mássalhangzók - zajgenerátort. Azonban, ez a módszer általában használt hangfelvétel a zenei kompozíciók, és gyakran még csak nem is a szintézisét a tiszta hang, hanem a modulációt.

A teljes szintézisét a beszéd a szabályok szerint lehet játszani azt előzőleg ismeretlen szöveget. Ez az eljárás nem használható elemek az emberi beszédet, és ennek alapján előre programozott algoritmusok, nyelvi és akusztikai.

Itt is van annak felosztása - kétféle megközelítés létezik ezen szintézis módszerek. Az első - a formáns beszéd szabályai szerint, és a második - artikulációs szintézist. Formánsszintézis alapján formáns - frekvencia rezonanciák a hangszóró hangját. formánsszintézis algoritmus szimulálja a működését az emberi hangképző szervek, működik, mint egy sor rezonátor. Ma, sajnos, a legtöbb szintetizátor. dolgozik kizárólag formánsszintézis, hogy megértsék képzés nélkül nehéz, de természetesen egy sokoldalú és ígéretes technológia. Artikulációs módszer megpróbálja módosítani formáns hátrányok oly módon, hogy az öntés modell fonetikus sajátosságait az egyes hangok.

Van is egy hang szintézis technológiával a szabályok szerint, mely a rögzített szegmensek természetes beszédet. Mert elvégre összeállítási módszereket, néhány szót róluk használják gyakrabban.

Attól függően, hogy milyen nagy „fragmensek” a beszéd szintézishez használt, visszanyert szintézis típusok:

mikrosegmentny (mikrohullámú sütő);
allophonic;
diádoknak;
poluslogovoy;
szótag-;
szintézise egység egy tetszőleges méretű.

A leggyakrabban használt módszerek allophonic és diádoknak. A diád beszédszintetizáló módszer, az alapvető elemek összes lehetséges kombinációját binomiális fonémákra allofón irányuló - kombinációja jobb és bal összefüggésben (allofón - fonémákat kiviteli alak, amely annak köszönhető, hogy konkrét fonetikus környezetben). Ugyanakkor a különböző összefüggésekben egyesítjük osztályokba mértéke szerint az akusztikus intimitás.

Az előnye az ilyen rendszerekben az, hogy lehetővé teszik, hogy szintetizálni a szöveg nem határozták meg előre a szövegben, de a hátránya - hogy a minősége a szintetizált beszéd nem hasonlítható össze a minőségi természetes beszéd (a határok a térhálósító komponens Distortion előfordulhat). Ez is nagyon nehéz ellenőrizni a jellemzői intonáció a beszéd, mint a jellemzőit egyes szavak függően változhat a környezet vagy a típusú kifejezés.

Azonban ez az egész elmélet. A gyakorlatban a jelenlegi fejlődési szakaszban, annak ellenére, hogy az aktív támogatása terén beszéd technológia fejlesztők mindig tapasztalható némi nehézséget, főleg kapcsolódó mesterséges szintetizált beszéd hiánya, érzelmi színe és az ő alacsony immunitás.

A tény az, hogy minden szintetizált beszéd általában érzékelhető a személy nehezen. Ez annak a ténynek köszönhető, hogy a hiányosságokat a szintetizált szöveget kitölti az emberi agy. amely felhasználja erre a további forrásokat, és egy személy rendszerint érzékelnek szintetizált beszéd csak mintegy 20 perc alatt.

A beszédészlelés is befolyásolja az érzelmi színezés. Abban az esetben, a szintetizált beszéd nincs jelen. Bár érdemes megjegyezni, hogy egyes algoritmusok is lehetővé teszi, hogy bizonyos mértékig utánozzák az érzelmi beszéd megváltoztatásával fonéma időtartamát, szüneteket és hang modulációt, de amíg a munka messze nem ideális.

Ami a harmadik említett probléma - alacsony zajszint immunitás, a kísérletek azt mutatják, hogy a felfogás a szintetizált szöveget megakadályozzák, még a legkisebb zajt. Ez megint csak annak a ténynek köszönhető, hogy a feldolgozás a szintetizált beszéd, az emberi agy használja további területek, amelyek nem használják a megítélése természetes beszédet.

Végén ezt a cikket szeretnék néhány példát a meglévő beszéd szintetizátor.

Mindenki ismeri az úgynevezett „olvasóterem” - a program az egyszerű szöveges olvasás monitorral. Sok próbálkozás segítségével beszéd szoftver képernyőolvasó, például, és Balabolka Govorilka.

Annak érdekében, hogy egy ilyen program beolvassa a szöveget, akkor is kell telepíteni a könyvtár SAPI (Speech API) és a hang motorok. A leggyakoribb két változata Speech API: SAPI4 és SAPI5.Obe könyvtár futhat ugyanazon a számítógépen. Az operációs rendszerek: Windows XP, Windows Vista és Windows 7 már telepítve SAPI5 könyvtárban.

Amellett, hogy az e-olvasók, közös képernyőolvasó. Ilyen program például a következők:

Virgo 4. A programot azért hozták létre a kényelmes működtetés a vakok és gyengénlátók felhasználók a Windows. Ez lehetővé teszi, hogy válasszon az információt, hogy lesz beszédhang és az egyik, hogy meg fog jelenni a Braille-kijelző. A látássérült felhasználók számára egy olyan rendszert növelésére a képernyőn „Galileo”.

Cobra Program 9.1 is könnyebb dolgozni a Windows a vakok és gyengénlátók számára. Ez a program a kimeneti megjelenítési információt a számítógép-monitor segítségével beszéd, Braille-kijelző és a képernyő egy zoom funkciót.