Alapelvek, a technika állása, a hangszórótól függő egyetlen szó felismerése - a tudomány spektruma

Alapelvek, a technika állása, a beszélőtől függő egyetlen szó felismerése

A nyelvi kommunikáció nagyon összetett folyamat. Az ember nemcsak a hallottakból érti a beszéd kimondását; inkább a teljes nyelvi tapasztalatát, valamint a tantárgy és a partner korábbi tudását használja fel; Kiértékeli a nem verbális komponenseket is, például a gesztusokat, az arckifejezéseket és a hang érzelmi hangvételét. Ez a kiegészítő információ még a megfogalmazásnál is fontosabb lehet. Végül is a természetes nyelvet nagyfokú redundancia jellemzi (vagyis ami valójában felesleges), így a kommunikációhoz gyakran elegendőek a verbális utalások vagy a nyelv töredékei. Ez megmagyarázza, miért lehetséges a beszélgetés zajos környezetben is.

Ha valaki ezt a fenomenális felismerési teljesítményt egy technikai rendszeren keresztül szeretné megvalósítani, akkor ennek végső soron rendelkeznie kell egy ember tudásával, tapasztalatával és intelligenciájával. Sokáig lehet filozofálni arról, hogy ez megvalósítható vagy értelmes cél-e. A beszédfelismerő rendszer fejlesztője számára, akinek mindig figyelembe kell vennie a technikai erőfeszítéseket (és ezáltal a költségeket), ez biztosan nem így van; neki elsősorban a konkrét alkalmazást kell látnia. Kiderült, hogy a beszédfelismerés nagyon korlátozott formái gyakran elegendőek; kulcsfontosságú megtalálni a legmegfelelőbb megoldást az adott alkalmazáshoz.

A gépekkel való kommunikáció természetes nyelven - a szokásos billentyűzet és képernyő helyett, általánosabban kapcsolókon és megjelenítő eszközökön keresztül - számos előnyt kínál: A felhasználónak nem kell új technológiát tanulnia, hanem a legismertebb kommunikációs formával dolgozik; szemeit és kezeit szabadon tartja egyéb tevékenységekhez, nincs egy adott helyre kötve, és akár telefonon is távolról irányíthatja a gépet. A hangbemenet és -kimenet sötét, piszkos és poros helyiségekben is lehetséges, és talán az egyetlen kommunikációs eszköz a géppel olyan fogyatékkal élők számára, akik nem tudnak billentyűzetet használni. Ellenkező irányban a gép által elhangzott kimondás a figyelemzavaros vagy figyelmetlen felhasználót is eléri.

Ami a kommunikáció ezen formája ellen szól, az az, hogy a teljesítmény és a megbízhatóság még mindig nem kielégítő egyes alkalmazásoknál. Ezenkívül minden nyelvi kommunikációnak vannak gyengeségei: Zajterhelés a kívülállók számára, nemkívánatos hallgatási lehetőségek és háttérzaj zavarása, ami jelenleg még mindig a beszédfelismerő rendszerek fő problémája.

A legfontosabb alkalmazások a következő mezőkben találhatók:

- Számok és szavak listájának beírása: Ha hosszú sávokat kell beírnia a számokból vagy szavakból egy sablonból, akkor folyamatosan változtatnia kell a tekintetét a sablon, a billentyűzet és a képernyő között, ami hosszú távon bosszantó, fárasztó és hibaforrás. Az azonnali szóbeli bevitel anélkül, hogy elnézne, elkerüli ezt a problémát. A gépen keresztüli beszéd kimenete felhasználható korrektúra elkészítésére.

Az autógyártás néhány minőségellenőrzője ma is továbbítja a hibajelentéseit közvetlenül egy rádió linken keresztül egy hangfelismerő számítógéphez, amely nemcsak naplót vezet, hanem megfelelő üzenetet továbbít a felelős félnek - esetleg gyártási számítógépnek. A későbbi írásbeli értékeléssel szembeni előny gyors válasz; ez csökkenti az elutasítási arányt.

- Gépek és számítógépek vezérlése. A rendszer nem csak felismer egy beírt parancsot, hanem egy művelet kiváltásával végrehajtja is. A hangvezérelt szerszámgépek már a piacon vannak. Vannak olyan autók, amelyekben ablaknyitók, ablaktörlők, rádiók és telefonok követik a kimondott parancsokat. A személyi számítógépek bizonyos vezérlési és korrekciós funkciói a beszédfelismerők segítségével is kiválthatók. Vannak hangvezérelt kerekes székek súlyos mozgássérültek számára. A hangvezérlést még nem használták a biztonság szempontjából fontos funkciókhoz, mivel a rendszerhiba esetén fennálló felelősség kérdése még nem tisztázott.

- Információs és rendelési rendszerek. A felhasználó megfogalmaz bizonyos követelményeket vagy kívánságokat, és a rendszer szóbeli választ ad (lásd Helmut Mangold cikkét a 97. oldalon).

- Diktációs rendszerek. Minden folyékonyan beszélt szöveget írott szöveggé kell átalakítani. Ez az alkalmazás a legszélesebb körű beszédfelismerést igényli (lásd: Marcus Spies cikkei a 90. oldalon és Volker Steinbiß a 94. oldalon).

A beszédfelismerési módszereket általában három osztályba sorolják: egyes szavak felismerése, a folyó szövegben kulcsszavak vagy a folyamatos beszéd felismerése. A megnevezett sorrendben a nehézség és az erőfeszítés drámaian megnő. Egy másik kritérium a beszélőfüggőség. A szokásos rendszereket a tényleges használat előtt az adott hangszóróhoz kell igazítani. A hangszórók függetlensége úgy érhető el, hogy a rendszert előre képezik ki, minél több előadóval. Az erre irányuló erőfeszítések jelentősek; ennek ellenére az észlelési megbízhatóság általában csökken.

Az alábbiakban részletesebben bemutatjuk a beszélőtől függő egyetlen szó felismerését. Jelenleg ez a legszélesebb körben használt és technikailag fejlett beszédfelismerési forma.

A folyamat lényegében két szakaszból áll (1. ábra): az előfeldolgozásból, amely a beszédjelből kivonja a felismerés szempontjából lényeges paramétereket, és az osztályozásból, amely a teszt és a referencia minták mintahasonlításain keresztül megtalálja a kapcsolódó jelentést.

Előfeldolgozás

Az első szakasz magában foglalja a frekvencia korlátozását (szűrést), a hangerő normalizálását és az analóg-digitális átalakítást; ez utóbbi szükséges a további feldolgozáshoz (ma kizárólag digitális). Az így digitalizált beszédjel már egy diszkrét számsorozatból áll, amelyek mindegyike leírja a hangenergiát egy bizonyos időpontban. Ezek a mintavételi idők azonban olyan közel vannak, hogy az eredetileg folyamatos jel alapvető tulajdonságai megmaradnak; az egyik kvázi folytonos jelről beszél.

Az ebben a formában túlságosan nagy adatmennyiséget most csökkenteni kell, hogy a felesleges előtéttől megszabadult információk a lehető legpontosabban jellemezzék a beszédjel releváns tulajdonságait. A lépés számos lehetősége között az alábbiakban az egyértelműség kedvéért vesszük figyelembe a beszédspektrumból történő kivonást. Vegyük példának a tett tettét, amelyet egyszer röviden és egyszer hosszan mondtak el. Az időjelben (1a. Ábra) a t plozívum felismerhető alacsony jelenergiájáról és szabálytalan menetéről; ez utóbbi nagyfrekvenciás jelkomponenseket jelöl. Az a magánhangzót magas jelenergia és meglehetősen szabályos, periodikus menet jellemzi.

Láthatja azt is, hogy a beszéd lassan meghosszabbítja a magánhangzót, de nem a plozív. Tehát a lassan kimondott szó nem egyszerűen a gyorsan kimondott szó lassított változata, amelyet a feldolgozás során figyelembe kell venni.

A hangjelet most frekvenciákra bontják; matematikailag ez megfelel egy Fourier-transzformációnak, amelyet 20-30 milliszekundum körüli időintervallumokra alkalmazunk. A frekvencia kijelzésben (1b. Ábra), hasonlóan a magánhangzókhoz, nagy energiák vannak, amelyek az alacsonyabb frekvenciák tartományában (1000 Hertz körül) koncentrálódnak; az ilyen energiamaximumokat formánsoknak nevezzük. Ezzel szemben a plozívok frekvenciatartománya nagyon széles, és körülbelül 10 kilohertzig terjed. Szinte nincs energia a szó előtti t előtt; ilyen szünetek jellemzik azokat a nyomásépítési fázisokat, amelyek általában szükségesek a plozívok beszédéhez.

Az időskálát már durvábbá tették a Fourier-transzformáció által említett intervallumok rácsához. Az adatcsökkentés általában még tovább megy, ha a kvázi folytonos frekvenciaskálán számos értéket egyesítünk, 8-20 viszonylag széles frekvenciasáv átlagolásával. A fennmaradó számok, amelyeket kerekítéssel durvítottak el, alkotják az úgynevezett jellemzővektort: az eredeti spektrum nagyon durva képe, amely teljes mértékben elegendő a felismerési folyamathoz (1. ábra c).

A beszédjel, például egy kimondott szó, így a jellemzővektorok idősorrendjévé vált. Az egyes szavak előtti és utáni szüneteket, amelyek csak felesleges tárhelybe kerülnek, egy speciális szünetdetektor segítségével határozzuk meg és szüntetjük meg; Ekkor csak a megfelelő szót menti. Ezzel véget ér az előfeldolgozás.

Tanulás és elismerés

Annak érdekében, hogy a rendszert egy adott hangszóróhoz igazítsák, a beszélő egy olyan szót beszél, amelyet jellemző vektorok sorozatává alakítanak át a leírt módon, és ettől kezdve referencia mintát képez. A kimondott szó jelentését általában billentyűzettel közlik a rendszerrel. A jelentés és a hozzá tartozó beszédjel mostantól a referencia mintamemóriában van tárolva. Ugyanannak a szónak több referenciamintája összevonható egyetlen egésszé átlagolással, amely kompenzálja a hangfelvétel véletlenszerű eltéréseit. Ugyanúgy jársz el minden olyan szóval, amelyet a rendszernek meg kell tanulnia.

Amikor a felhasználó a tanulási szakasz befejezése után kimondja a megtanult szavak bármelyikét, a rendszer ugyanúgy átalakítja a hangjelet jellemzővektorok sorozatává - a tesztmintává. Ez egymás után összehasonlítja az összes tárolt referencia mintát, meghatározza azt, amelyik a legjobban hasonlít a jelenlegi mintához, és kiadja annak jelentését (1. ábra jobbra).

Ehhez az összehasonlításhoz a két mintát közös idõskálára kell vinni, mert senki sem ejti ki kétszer ugyanazt a szót pontosan ugyanolyan sebességgel. Az idő tengelyének egyszerű összenyomása vagy kinyújtása értelmetlen lenne, mivel - mint említettük - a beszéd sebességének változása különböző hatásokkal jár a különböző hangokra. Az úgynevezett dinamikus időbeállítás nagyon hatékony módszernek bizonyult: Minden kis időtartamot egyenként nyújtanak vagy tömörítenek, hogy a vizsgálati és a referencia minták közötti megfelelés a lehető legnagyobb legyen (2. ábra). Az így kapott nemlineáris adaptációs függvényt dinamikus idővetemítési függvénynek nevezzük; a warp (to wind) szó nagyon világosan leírja, hogy az adaptációs függvény miként tekereg keresztül a koordinátarendszeren.

Az utolsó feldolgozási lépés az újrabeállítás. Mivel egy beszélő hangja az idők folyamán változik, a megbízhatóan felismert tesztmintákat arra használják, hogy frissítsék a tárolt referencia mintákat úgy, hogy mindkettőre megfelelő súlyozott átlagértéket alakítanak ki. Ennek eredményeként a rendszer nemcsak a tanulási szakaszban tárolt szavakkal, hanem a közelmúltban kimondott szavakkal is működik.

További eljárások

Két másik, nagyon sikeres módszer meglehetősen közvetett minta-összehasonlítással működik az itt bemutatott teszt- és referencia-minták közvetlen összehasonlítása helyett.

Az úgynevezett rejtett Markov-modellekkel való elismerés jelenleg a legkedveltebb favorit. Ezek Andrej Andrejewitsch Markow (1856 és 1922) orosz matematikushoz nyúlnak vissza. Becslésekkel dolgozol annak valószínűségével, amellyel a rendszer állapotát (például egy jellemzővektort) egy másik - vagy akár ugyanaz - követi (lásd különösen Marcus Spies cikkét a 90. oldalon).

E fogalmak közül a második az idegi hálózatok. Valódi idegsejtek mintájára épülő primitív kapcsoló elemek párhuzamos, hálózatba kapcsolt struktúrájából állnak. Ezen elemek bizonyos paraméterei automatikusan beállíthatók a tanulási szakaszban oly módon, hogy a bemenetnél jelen lévő bizonyos jellemzővektorok bizonyos eredményt hozzanak a kimeneten (lásd Geoffrey E. Hinton: "Hogyan tanulnak az ideghálózatok a tapasztalatokból", 134. oldal) ). A neurális hálózatok nagyon alkalmasak a beszédfelismerésre; különösen akkor sikeresek, ha a tesztmintákat interferencia (például környezeti zaj) meghamisítja.

Még mindig nem világos, hogy az említett stratégiák közül melyik érvényesül hosszú távon. A rejtett Markov modelleket könnyen felülkerekedhetnek a beszédfelismerésre optimalizált új típusú neurális hálózatok.

A beszédfelismerők teljesítményének további javítása érdekében a jellemzővektorokban található akusztikai-fonetikai információk mellett további információforrásokat is értékelünk. Nagyon fontos a feladattal kapcsolatos ismeretek. A legtöbb alkalmazásban az alkalmazási kör tartalma szempontjából korlátozott, így csak viszonylag kevés az engedélyezett szó. Emiatt például a gépvezérléshez használt beszédfelismerő program könnyen korrigálhat egy "géperdő" -nek helytelenül felismert parancsot az érvényes "gépi leállítás" parancsra.

A gyakorlati tudás szorosan kapcsolódik ehhez: a beszédfelismerő program információt kap a környezete állapotáról, és a fonetikus alapú felismerést hamisnak nyilvánítja, ha az ellentmond a környezeti feltételeknek. Ha például a gépi vezérlés felismerési rendszere tudja (a mérőérzékelők üzenetével), hogy a gép fut, akkor a "gép bekapcsolása" parancsot értelmetlenül ismeri fel, és helyettesíti a "gép leállítása" paranccsal - vagy lekérdezést indít.

A legkorszerűbb

A kis szókincs (akár több száz szó) hangszórótól függő egyszavas felismerői immár problémamentesen megvalósíthatók. A jelenleg rendelkezésre álló rendszerek többsége ilyen típusú.

Bizonyos esetekben akár 50 szóból álló, beszélőtől független egyszavas felismerőket kínálnak; de sokan még mindig a kutatás vagy a fejlesztés szakaszában vannak. Sürgősen szükség van ezekre a rendszerekre a távközlési ágazatban, annak új felhasználóival, akiktől nyilvánvaló, hogy nem lehet minden alkalommal kérni egy képzési fázist használat előtt. A telefonos információs rendszerek tipikus alkalmazás.

A fejlesztés élén kevés olyan felismerő található, mint az amerikai Dragon Systems vállalat "Dictate-30K" rendszere, amely rejtett Markov-modelleken alapul, és legfeljebb 30 000 szó befogadására képes. Ez általában elegendő a standard szövegek létrehozásához, még akkor is, ha figyelembe vesszük, hogy egy szónak általában különböző ragozási alakjai vannak, és mindegyik forma önálló szónak számít. Mivel a rendszer képzési szakasz nélkül alkalmazkodik a számára ismeretlen hangszórókhoz, szinte hangszóró-független felismerő tulajdonságokkal rendelkezik. A hardver egy személyi számítógéphez csatlakoztatható kártyán található. A fő alkalmazás az irodaterületen található. Hátránya minden bizonnyal az, hogy a felhasználónak szünetet kell tartania minden két szó között (mivel ez egyetlen szófelismerő), ami szaggatott, természetellenes beszédmódot igényel.

Különösen érdekes feladat a kulcsszavak felismerése a folyékonyan beszélt nyelvben, az úgynevezett szófoltozás. Átalakítja a folyamatos beszédfelismerést, de semmiképpen sem igényli számítási erőfeszítéseit. Az erősségeit ott tárja fel, ahol csak különleges információk - például parancsok, lekérdezések, nevek vagy számok - fontosak. Például a szófoltot használó repülési információs rendszer felhasználójának jelentős szabadsága van arra, hogy megfogalmazza válaszát arra a kérdésre, hogy hova szeretne repülni; a rendszer helyesen fogja megérteni, ha csak helyesen ismeri fel a "Hamburg" szót a kimondott szövegben. Ily módon magas szintű felhasználói elfogadottság érhető el.

Elképesztő, hogy csak néhány ilyen rendszer létezik. Ennek egyik oka lehet, hogy a szófoltozás különösen alkalmas hangcsatornák (különösen telefonvonalak) hallgatására, ezért a vizsgálatok titkosak.

A legkényelmesebb, de egyúttal a legnehezebb technika a folyamatos beszéd felismerése. A problémák főként abból adódnak, hogy a nyelváramlásban a szóhatárok gyakran nem ismerhetők fel, vagy egyáltalán nem is léteznek: a „hétfőn” „hétfőn” beszélnek. Ez lehetetlenné teszi a szavak alapján történő összehasonlítást, így át kell váltani egyetlen hangra.

Nagyon kevés olyan rendszer van a világon, amely ezeket a problémákat megoldja; többségük még mindig laboratóriumi vagy prototípus stádiumban van. A Philips "Beszédfeldolgozó Rendszer 6000" mellett (vö. Volker Steinbiß cikkét a 94. oldalon) a "Sphinx" rendszert, amelyet Kai-Fu Lee és munkatársai a pittsburghi Carnegie Mellon Egyetemen külön megemlítenek. (Pennsylvania). Alapjában véve rejtett Markov-modelleken alapul, és nem tartalmaz jelentősen új stratégiákat vagy összetevőket; Nagy teljesítménye inkább annak köszönhető, hogy az ismert felismerési algoritmusok legjobbjait komplex módon kombinálták egymással. A "Sphinx" képes a folyamatos beszédet felismerni, körülbelül 1000 szó szókincsével és 95 százalék körüli pontossággal. A rendszer jelenleg még laboratóriumi stádiumban van.

Az automatikus beszédfelismerés kétségtelenül az egyik legfontosabb technikai újítás az ember-gép kommunikáció területén. A rendelkezésre álló rendszerek még mindig messze vannak egy olyan felismerési teljesítménytől, amely összehasonlítható lenne az emberekével, de már különféle feladatokhoz használható. A legtöbb műszaki alkalmazásnak amúgy is csak nagyon korlátozott követelményei vannak a beszédfelismerő rendszerrel szemben. Ugyanakkor továbbra is jelentős szükség van kutatásra és cselekvésre egy nem technikai területen: az ember és a gép közötti párbeszéd optimális megtervezéséhez.

Bibliográfia

- Beszédfeldolgozás és beszédátvitel. Klaus Fellbaumtól. Springer, Heidelberg, 1984.

- Automatikus beszédfelismerés. Írta: G. Ruske. Oldenbourg, München 1988.

- Nyelvi ember-gép kommunikáció. Szerk .: Helmut Mangold. Oldenbourg, München 1992.

- Beszédfelismerés és megértés. Legfrissebb előrejelzések, trendek és alkalmazások. Szerk .: P. Laface és R. de Mori. Springer, Heidelberg 1992.

- A beszédjel feldolgozásának előrelépései. Szerkesztette: Sadaoki Furui és M. Mohan Sondhi. Marcel Dekker, New York/Basel/Hong Kong 1992.