A beszédszintézis története

Wolfgang von Kempelen beszélőgépe

Az emberi nyelv gépi előállítására az első kísérleteket a 18. század második felében tették. készült. Ch. G. Kratzenstein, a koppenhágai, korábban hallei és pétervári fiziológiai professzornak sikerült orgonacsövekhez kapcsolt rezonanciacsövekkel ellátott magánhangzókat előállítani (1773). Körülbelül ekkor Wolfgang von Kempelen már elkezdett olyan kísérleteket, amelyek beszédgép építéséhez vezették. Von Kempelen Ingenius volt Mária Terézia szolgálatában Bécsben. 1734-ben született Pressburgban, Magyarország akkori fővárosában, Bécsben hunyt el 1804-ben. Noha híresebb lett más cselekedeteiről, az emberi beszédtermelés tanulmányozása volt az elsődleges gondja, a terápiás alkalmazásokat is szem előtt tartva. Őt hívták az első kísérleti fonetikusnak. Könyvében Az emberi nyelv mechanizmusa és a beszélő gép leírása (1791) nyelvgépét is nagyon részletesen leírta, hogy mások újra létrehozhassák és továbbfejleszthessék. Az alább látható, jobb oldalon látható hat rajz ebből a könyvből származik. (Kattintson ide a nagyításhoz - és a böngésző megfelelő gombjával.)

Von Kempelen gépe volt az első, amellyel nemcsak egyedi beszédhangokat, hanem szavakat és rövidebb mondatokat is elő lehetett állítani. Kempelen szerint "három hét alatt megszerezhet egy csodálatos játéktudást, különösen, ha áttér a latin, a francia vagy az olasz nyelvre, mert a német sokkal nehezebb" (a gyakran zárt szótagok és Mássalhangzó-csomag).

A gép egy jobb alkarral működtetett fújtatóból áll, amely a tüdőt szimulálja (felső rajz). Egy ellensúly gondoskodik az „inhalációról”. Az alábbi két rajz a „szélládát” mutatja néhány karral, amelyek a jobb kéz ujjaival működtethetők, valamint a készülék gumi „száját” és „orrát”. A két orrlyukat le kell zárni, ha nem akarnak orrot képezni.

A levegő áramlását nemcsak a nádason keresztül vezetik a szájba, hanem a vele párhuzamosan elrendezett keskeny csövön keresztül is. Ez lehetővé teszi a szájüregben a légnyomás emelkedését, ha a rögzítőcső nyílása teljesen bezárt, és így hangtalan beszédhangok keletkeznek. A zár felengedésekor egy kis harmonika további légzsákot biztosít.

Bal kézzel a száj rezonancia tulajdonságait úgy is befolyásolhatjuk, hogy a nyílást sokféle módon lefedjük. Ez lehetővé teszi egyes magánhangzók és mássalhangzók elégséges szimulálását. Ezért nem a természetes tagolás utánzata, mert a gép rögzítőcsövének alakja eleve megváltoztathatatlan. Bizonyos magánhangzókat és különösen a mássalhangzókat [d t g k] nem lehet utánozni, de legjobb esetben szimulálni. A hüvelykujj szájba helyezésével [l] keletkezik.

A hanghajtások működését elefántcsontból készült nád szimulálja (bal oldali rajz). A könyvben leírt változat még mindig monoton beszélt, de már megvolt a lehetőség a nád tényleges hosszának és ezáltal a hangmagasság megváltoztatására.

A jobb kézzel működtethető karok közül kettőt használnak a frikatívok [s] és [], valamint a [z] és [] elkülönített, sziszegő csövek segítségével (a jobb oldalon rajzolva). Zörgő [R] keletkezik olyan eszközzel, amely drótot dob le a rezgő nádra (középen rajz).

A Kempelens gép utolsó változatát a mai napig megőrizték. 1906-ig volt a k. k. Bécsi Zeneművészeti Konzervatórium, majd alapítványként adta a mindössze három évvel korábban alapított müncheni Német Múzeumnak (a természettudomány és a technika remekei). Azóta a hangszerek tanszékén állították ki. Ez az eszköz abban különbözik a könyvben leírt változattól, hogy a nád lengési hossza a jobb tenyérből működtethető retesszel változtatható. Ezután megpróbálhatja szimulálni az intonáció természetes menetét.

Wolfgang von Kempelen beszélőgépe, amint az a müncheni Deutsches Múzeumban látható, és felülről nézve, levéve a doboz fedelét. A hangzás mechanizmusának nézetei

1997. július 8-án azt a kiváltságot élvezhettem, hogy kipróbáltam Kempelen gépét. Hangolási mechanizmusuk még mindig működött, és a hangmagasság-ellenőrzés még mindig hatással volt. A hang hasonló volt a gyerekhez és elég hangos. Az eszköz számos lényeges részlete azonban már nem volt üzemképes.

A Wheatstone által Dublinban 1835-ben bemutatott géppéldány abban különbözött a Kempelen könyvében leírtaktól, hogy alakítható fúvókával és karral rendelkezett a hang elnyomására, de hiányzott a mechanizmus a Kempelen utolsó verziójának hangmagasságának változtatásához.

Században Még néhány hasonló típusú gépet gyártottak, de a beszédszintézis terén alapvető újításokat erre a századra még nem rögzítettek. Érdemes azonban megemlíteni Joseph Faber által 1835-ben bemutatott eszközt, amely Kempelen gépéhez képest előrelépést jelentett abban, hogy nyelvvel és alakváltó garattal is rendelkezett, és az ének szintézisére is alkalmas volt. Fújtatóját lábpedál hajtotta, a művelet további részét pedig billentyűzeten hajtották végre.

Joseph Faber "Euphonia" -ja 1846-ban Londonban volt látható. A gép rendes és suttogott beszédet és éneket adott, beleértve az "Isten mentsd meg a királynőt" himnuszt.

1937-ben R. R. Riesz (USA) még mindig a Kempelen-hez hasonló koncepcióval rendelkező készüléket épített, de a hosszabbítócső lényegében valósághű formájú volt.

A beszédgenerálás mechanikus modelljét Riesz (1937) készítette.

Bár Kempelen már rájött, hogy az egyik csak az a Ha folyamatos beszédet szeretne készíteni, akkor egy-egy magánhangzóhoz külön rezonátorral ellátott eszközöket más célokra is építettek, akár több mint száz évvel később is. A Sirиnes a voyelles et rйsonateurs buccaux, írta: G.R.M. Marage (Párizs, 1900).

Homer Dudley VODER-je

A 20. század eleji elektrotechnika fejlődése lehetővé tette a beszédhang elektromos eszközökkel történő előállítását. Az első ilyen fajta készülék, amely nagy feltűnést keltett, Homer Dudley fejlesztette ki ELŐTT, amelyet az 1939-es New York-i világkiállításon mutattak be a nagyközönségnek. Ehhez azonban nagyon hosszú gyakorlatra volt szükség ahhoz, hogy sikeresen felhasználható legyen.

A VODER funkcionális rajza és a készülék bemutatása az 1939-es világkiállításon.

Kézzel működtetett beszédszintézis eszközök, mint például a Kempelens és a ELŐTT Leginkább szórakozásra készültek, de mélyebb háttérrel rendelkeztek. Kempelen készülékét az emberi beszédgenerálás tanulmányozásával párhuzamosan hozták létre, és Dudley készüléke kinőtt a VOCODER (Voice Coder), amelynek célja az volt, hogy csökkentse a telefonon történő hangátvitelhez szükséges sávszélességet, hogy egy adott telefonvonalon nagyobb számú távolsági hívást lehessen kezdeményezni.

Frank Cooper mintajátszása

Egy fényforrás létrehoz egy gerendát, amely sugárirányban ütközik egy forgó korongra. A lemeznek 50 koncentrikus hangsávja van, mint egy hangfilmben, amelyen keresztül 50 részhangot reprodukálnak, amelyek alapfrekvenciája 120 Hz. Az így modulált fényt egy olyan spektrogramra vetítik, amelynek fényvisszaverése vagy más üzemmódban a fényáteresztése megfelel a parciális hangok hangszintjének, és egy fotocellába táplálják, amellyel a fényingadozásokat végül hangnyomásingadozásokká alakítják. A spektrogram a görgők fénysugara mellett mozog. Ez olyan hangjelzést ad, amely hasonló az eredeti beszédjelhez, de legalább monoton. A helyes spektrogramok helyett használhatunk kézzel festett "spektrogramokat" is fehér festékkel. Az így előállított jelekkel végzett percepciós kísérletek révén számos új megállapítást kaptunk a különböző részletek percepciós szerepéről a hangspektrumokban.

A beszédtermelés elektromos modelljei

Azokban a modellekben, amelyeket 1950 óta több kutató fejlesztett ki, az elektromosan szimulált hangforrásból származó jelet egy szűrőn keresztül küldik. A forrásjel vagy periodikus hang, mint a hangos beszédhangokban, vagy aperiodikus zaj.

A szűrő a hangcsatorna rezonancia tulajdonságait szimulálja. Két típus különböztethető meg. Az egyik esetben az artikulációt nagyszámú, egymásba kapcsolt elektromos áramkörrel szimulálják, amelyek mindegyike a meghosszabbító cső rövid darabját (pl. 5 mm) képviseli, ahol keresztmetszeti területe döntő (analóg vonal), távvezeték analóg). A másikkal a formánsokat, azaz a rögzítőcső rezonanciáit közvetlenül egy-egy kör szimulálja (formáns szintézis), terminál analóg).

Gunnar Fant, a Kgl-ből. Stockholmi Műszaki Egyetem, az övével OVE, Formáns szintetizátor magánhangzókhoz, amelyben a két legfontosabb formáns frekvenciapozíciója manuálisan változtatható egy vezető eszközzel.

A ... val Parametrikus mesterséges felvevő Walter Lawrence (1953) teljes értékű mássalhangzókat is előállíthat.

Számítógépes beszédszintézis

Felfogták azt a nyilvánvaló elképzelést is, hogy a nyelvet a tárolt szavak vagy rövidebb szakaszok összefűzésével állítsák elő. Az egyes beszédhangokat azonban nem lehet egyszerűen szavakba és mondatokba kapcsolni, mert a beszédhang akusztikai tulajdonságait a megfelelő hangkörnyezet is meghatározza. Jobban működik az úgynevezett difonokkal, amelyek a beszédhang második feléből és az alábbiak közül az elsőből állnak. Ez azonban sok elemet eredményez, amelyeket el kell menteni. Ilyen összekapcsolási módszerekkel nagyfokú természetesség érhető el anélkül, hogy akusztikai alapjuk teljes leírását igényelnék. Ezekből a módszerekből azonban hiányzik a szabály által vezérelt szintézis rugalmassága.

A mai technika állása szerint a szintetikus nyelv elérhető érthetőségének és természetességének határait alig adják meg technikai jellegű tényezők, sokkal inkább a nyelv akusztikájának és érzékelésének korlátozott ismerete. A kutatás során beszédszintézis használható ezen ismeretek tesztelésére. Ma már léteznek automatikus módszerek a beszéd akusztikai elemzésére és újraszintézisére. Az újraszintézis előtt meg lehet tenni bizonyos beavatkozásokat, például megpróbálni megváltoztatni a beszélő látszólagos életkorát. A siker attól függ, mennyire ismeri a legfontosabb tényezőket. Hallgassa meg az ilyen manipulációkat, és saját maga ítélje meg, mennyire sikeresek: Manipulációk a beszélő korában és nemében (svéd példák).

Íme még néhány utalás erről a témáról

Wolfgang von Kempelen az interneten, például virtuális sakkgépéről. Könyvének leírását Slavomir Ondrejovic esszéjében találja (szlovák és angol nyelven).
A VODER, a Pattern Playback és az OVE fenti szintézis példái közül néhányat Dennis Klatt (1987) állított össze. További tüntetések.
A Pattern Playback és a vele végrehajtott kísérletek leírása elérhető a Haskins Labs Internet szerveren. Ott világossá válik a kapcsolat a hangzás, az artikuláció és a beszédhangok akusztikai tulajdonságai között: artikulációs szintézis.
Kipróbálhat több, szöveges vezérlésű, különböző típusú beszédszintézis rendszert is a hálózaton keresztül. Az On-line szintézis alatt számos link található.
További beszédszintézis példák.
A Müncheni Egyetem Fonetikai és Nyelvi Kommunikációs Intézetében számos szöveg készen áll az akusztikai fonetika tanulmányozására: Akusztikus fonetika (HG Tillmann és F. Schiel), Szonogramok olvasása (Kirsten Machelett és HG Tillmann), valamint a beszédszintézis bevezetése ( Daniel Zboril).
További linkeket találhat erről a témáról a SOCRATES oldalon.

Irodalom:

Wolfgang von Kempelen (1791) Az emberi nyelv mechanizmusa és a beszélő gép leírása, Bécs: J.V. Degen, ott is megjelent franciául, Le Mйchanisme de la parole, a gép leírásának leírása. A német változat fax nyomtatását Herbert E. Brekle és Wolfgang Wildgren bevezetőjével az Frommann-Holzboog adta ki Stuttgartban 1970-ben. Vannak újabb fordítások magyarra és szlovákra is.

James L. Flanagan (1965) Beszédelemzés: szintézis és észlelés, Berlin: Springer.

Jens-Peter Kцster (1973) A statikus és magánhangzó-szerű jelek előállítására szolgáló szintézis készülékek történeti fejlődése, valamint a német magánhangzók szintézisével kapcsolatos tanulmányok (Értekezés), Hamburg: H. Buske.

Dennis H. Klatt (1987) Az angol nyelvű szöveg-beszéd átalakítás áttekintése, Az Amerikai Akusztikai Társaság folyóirata, 82: 737-793.

Joachim Gessinger (1994) Szemfül. Tanulmányok az emberek nyelvének tanulmányozásához 1700-1850, Berlin, NY: De Gruyter. Hartmut Traunmьller | Fonetikai Osztály Nyelvtudományi Intézet Stockholm Egyetem | 1997 augusztusában.