A beszédfelismerés alapjai egy diktációs rendszerben - a tudomány spektruma

A beszédfelismerés alapjai egy diktációs rendszerben

A beszédfelismerő rendszer Az IBM Speech Server Series (ISSS) valós időben és rendkívül nagy felismerési pontossággal konvertálja a kimondott szöveget írott szöveggé és jeleníti meg a képernyőn (1. ábra). Az elmúlt években az IBM terméklaboratóriumaiban fejlesztették ki Boca Ratonban (Florida) és Bécsben, valamint Róma, Párizs, Sevilla, Hursley (Nagy-Britannia) és Heidelberg tudományos központjaiban. Frederic Jelinek, Robert Mercer és Lalit Bahl által vezetett kutatócsoport az IBM Thomas J. Watson kutató laboratóriumában, Yorktown Heights (New York) alapkutatással teremtette meg ennek a fejlődésnek az alapvető előfeltételeit.

Az ISSS használata jelenleg úgynevezett diszkrét beszédet igényel, vagyis a szavak közötti szünetekkel diktál (még akkor is, ha majdnem olyan rövidek, amennyit csak akar). Ezt a korlátozást a felismerés pontossága érdekében megtartották; ez rendszeri okokból nem szükséges.

A beszédjel felismerése az előfeldolgozással kezdődik: Az emberi fülben zajló hangfeldolgozásnak megfelelően a rendszer először egy Fourier-transzformációval számítja ki, hogy az adott időpontban - pontosabban: valamivel hosszabb megelőző időintervallumon belül - bizonyos rögzített frekvenciák milyen intenzitással vannak jelen a hangjelben. Ezeket az információkat minden századik másodpercben felveszik, és úgynevezett jellemzővektorként továbbítják a következő feldolgozási szakaszba. Hasznosnak bizonyult a szomszédos idõpontok értékeinek összefoglalása és a differenciálás szempontjából fontos információk statisztikai módszerrel, az úgynevezett diszkrimináns elemzéssel történõ kinyerése. Az így kapott finomított jellemzővektorok ezért már sűrített formában tartalmazzák az alapvető információkat.

Ha megfogalmazunk egy bizonyos hangot - például egy a-t -, az ez idő alatt észlelt jellemzővektorok jobban hasonlítanak egymásra, mint egy másik hang jellemzővektorára. Ha valaki - a vektoroknál szokásos módon - nagydimenziós tér pontjaiként képzeli el őket, akkor a jellemzővektorok vagy egy bizonyos hanghoz tartozó pontok felhőt képeznek ebben a térben. Pontos helyzetük és alakjuk minden hangszórónál különbözik; a rendszer hangszóró-specifikus képzési szakaszában kerül meghatározásra.

A számítási gazdaságosság érdekében a felhőket hozzávetőlegesen számítási szempontból különösen egyszerű szabványos formák segítségével írják le. Úgy tűnik, mintha a felhők gömb alakúak vagy elliptikusak lennének, és a fő tengelyeik párhuzamosak lennének a koordinátarendszer tengelyeivel (normál eloszlások diagonális kovarianciamátrixszal). A szokásos formától jelentősen eltérő felhőt több szokásos felhő is megközelítheti.

Az előfeldolgozás a beszéd kimondását jellemző vektorok idősorrendjévé alakítja; Az absztrakt térben egy pont felhőről felhőre ugrik. Elvileg egy beszédfelismerő programnak csak a jellemző vektorok alapján kellene minden esetben a megfelelő felhőt azonosítania. Az így talált felhőszekvencia ekkor közvetlenül a beszédjel fonetikus átírását eredményezné.

A gyakorlatban azonban a helyzet sokkal bonyolultabb. Az edzés után általában lényegesen több felhő van a jellemzővektorok térében, mint a hangok száma. Tehát a hangtér (fonémák) nincsenek egyértelműen hozzárendelve a felhőkhöz a funkciótérben. Inkább minden fonéma több felhőből származó pontokat használ; sorrendjük csak nagyjából meghatározott, de nem a pontos időrend. Tehát a legtöbb beszélő kitér a felhő felé az e felé egyetlen kimondott w végén; a w folyamán az u-felhő rövid ideig használható közöttük stb. Végül is a felhők nincsenek fókuszban és átfedik egymást.

Markov láncok

A probléma azonban nem megoldhatatlan, amint azt a saját nyelvmegértési képességünk is mutatja. Az emberi előzetes tudás matematikai formalizálása és ezáltal a számítógép számára történő rendelkezésre bocsátása érdekében egy nyelvi megnyilatkozáshoz (például egy szóhoz) hozzárendelnek egy úgynevezett Markov-folyamatot. Először is, ez jelzi azokat a valószínűségeket, amelyekkel az engedélyezett állapotok bizonyos halmazából az egyik állapotot (jellemzővektor) követi a másik. Ezt általában egy úgynevezett Markov-lánc képviseli (2. ábra). A Markov-folyamat egyik megvalósítása abból áll, hogy egy kezdeti állapotból kiindulva egy későbbi állapotot véletlenszerűen határoz meg a kezdeti állapotra érvényes átmeneti valószínűségnek megfelelően, ebből egy későbbi állapotra stb.

A Markov-láncok a statisztikák standard eszközei az időfolyamatok modellezéséhez. A beszédfelismerés alkalmazásában újdonság, hogy az állapotok nem jellemzővektorok, hanem felhők - pontosabban: a jellemzővektorok valószínűségi eloszlásai. Mivel egy jellemzővektor több felhőhöz is tartozhat, a jellemzővektorok megfigyelt szekvenciájából nem könnyű következtetni a kapcsolódó állapotok (felhők) sorrendjére (lásd a mezőt a 92. oldalon); ez - kezdetben - rejtve marad, ezért vált általánossá a rejtett Markov modellek kifejezés. Ami felesleges komplikációnak tűnik, annyira sikeres, mert a Hidden Markov modellek beépített elmosódásukkal nagyon jól megismételhetik a csukló természetes pontatlanságát.

A tanulási szakaszhoz a beszélőnek körülbelül háromnegyed órás szöveget kell felolvasnia. Az egyes kimondott hangok számos felismerése alapján a rendszer kiszámítja a társult Markov-folyamat várakozási és átmeneti valószínűségének becsült értékeit. Ugyanakkor megbecsülik a felhők paramétereit. Bizonyos értelemben ezekben a számokban tárolódik annak ismerete, hogy ezt a hangszórót hogyan használják a hang kiejtésére.

A képzés szövegében nem szereplő, de mégis felismerhető szavak túlnyomó többségéhez a kapcsolódó Markov-folyamatot a rendelkezésre álló adatokból kell felépíteni. Egy olyan tudásalapú rendszer segítségével, amelyet Klaus Wothke és más heidelbergi számítógépes nyelvészek írtak az IBM-ben, a beszélt alakot alkotó fonémák sorozata levezethető a szó írott alakjából; minden fonémához tartozik egy Markov-lánc, amelynek összefűzéséből megkapja az egész szó Markov-láncát.

Ha a rendszernek most fel akarja ismerni a helyes hangot egy üzenettel összefüggésben, akkor el kell döntenie, hogy a lehetséges Markov-láncok közül melyiknek van a legnagyobb valószínűsége a jelen megfigyelés előállítására (jellemzővektor-szekvencia). Itt olyan módszert alkalmaznak, amelyet Andrew J. Viterbi amerikai kommunikációs mérnök ajánlott fel 1967-ben, teljesen más kontextusban (lásd a keretet a 92. oldalon). Az emberi nyelv fonémáinak pontos megkülönböztetése a számítógépen csak ezen elvek és nagyon hatékony algoritmusok alkalmazásával volt lehetséges.

Mivel a rendszer nemcsak az egyes fonémák, hanem a fonéma-szekvenciák - főleg a szavak - esetében is működik a Markov-láncokkal, a kérdés nem egyszerűen az, hogy a lehetséges fonémák közül melyiket mondták legvalószínűbbnek, hanem melyik, figyelembe véve a a már hallott szótöredékek a legvalószínűbbek.

Ebben az értelemben munkamódszere hasonlít az emberek felfogására: Nem pártatlanul regisztrálunk, hanem a már észlelt hipotézisekbe próbáljuk illeszteni azt, amit észlelünk. Ez a rekonstrukciós munka (amelyre a "szintézis útján történő elemzés" kifejezést használták) lehetővé teszi számunkra, hogy kijavítsuk az objektumok alakjának hiányosságait és ingadozásait.

Ez az eljárás tovább általánosítható a gépi beszédfelismerésben, ha a fonetikus szómodelleket nagyobb adatstruktúrákba ötvözi, amelyek alapján a Viterbi-rangsor alapján meghatározható a nagy valószínűséggel a sok szóhipotézis.

Finomított nyelvi modellek

A kiejtés és a helyesírás közötti rendszeres kapcsolat - amely a fonetikus szómodell megalkotásának előfeltétele - sokkal bonyolultabb például németül és angolul, mint például spanyolul. Az eddig leírt modellábrázolást ezért finomították, ami hozzájárul a felismerési pontosság jelentős javulásához. Az ISSS program két lépésben halad.

Az eddig leírt elv az volt, hogy a szavakat fonémákra osztották, majd mindegyik fonémához Markov-láncot fogalmaztak meg. Nincs értelme a fonémát a beszédfelismerés leíró szintjeként egyáltalán kihagyni? Nem lenne elég egy szó fonetikus ábrázolásához egyszerűen Markov-láncot végigkövetni a funkciótér felhőin keresztül? Ennek az lenne az előnye, hogy nagyon pontosan meg lehetne fogni a kiejtés finomságait, például az elmosódást és a rövidítéseket.

Míg a fonéma Markov-láncának általában 7 állapota (felhője) és 13 átmenete van, meglehetősen hosszú, mindazonáltal nagyon egyszerűen felépített Markov-láncok fogalmazhatók meg, amelyek csak jellemzővektorokra és azok szekvenciájára utalnak: Minden csomópontra van átmenet magára a csomópontra, a következő csomópontra és a következőre, csak abban az esetben, ha a következő csomópontnak megfelelő tulajdonságvektor hiányzik az adatláncból. Az így kapott szómodell csak a közvetlenül megfigyelt akusztikai jelenségeken alapul, ezért a fenonikus alapforma elnevezést kapta, amely lefordítható "fenonikus alapformának".

Ebben a formában azonban a modell szó még mindig nem praktikus. Mivel minden szót közvetlenül vonásvektorok modelleznek, a szó írott formájából már nem lehet hipotéziseket levezetni annak akusztikai megvalósításáról. Tehát minden egyes szóhoz külön fenonikus modellt kellene képezni. Ez gazdaságtalan és nem alkalmas gyakorlásra.

Itt jön a második döntő lépés, amely megkülönbözteti az ISSS beszédfelismerő rendszert. Nyilvánvaló, hogy a fenonikus modellnek akkor van értelme, ha a lehető legkisebb fonetikai egységekre vonatkozik. Meg kellene találni a módját, hogy a legkisebb fonetikai egységeket a lehető legpontosabban következtethessen a szó írott alakjából. Ennek megközelítése a fonetikus döntési fák.

Az ötlet az, hogy a hagyományos, meglehetősen durva kiejtési szabályokat olyan szabályokkal helyettesítsük, amelyeket empirikusan, kiterjedt adatokból nyernek. Az írott levél kiejtése - pontosabban: egy fonémát képviselő betűsor, például sch - a kontextustól függ; s-t Amsel-ben, Emsland-ben hangoztatják. A kontextustól függõ keverést itt is rögzíthetjük.

A program most a fonéma (vagy bármely fonéma) akusztikai megvalósításainak halmazát strukturálja úgy, hogy a teljes halmazt a kontextustól függően két, a lehető leghomogénebb (önmagában egységes) részhalmazra osztja. (Annak eldöntése érdekében, hogy a jellemzővektorok két szekvenciája hasonló-e, akár figyelmen kívül hagyhatjuk a szekvenciájukat a beszédjel nagyon rövid szakaszainál is - amint a tapasztalatok megmutatták; elegendő összehasonlítani a frekvenciáikat, ami sokkal kevésbé összetett.) senki sem színleli; automatikusan kiszámítja őket a program. Legfeljebb öt fonéma összefüggéseit vesszük figyelembe a leírandó előtt és után.

Minden egyes részhalmaz két részhalmazra oszlik, amelyek a lehető leghomogénebbek stb. A maximális információszerzés statisztikai kritériuma érvényes. A felosztás addig folytatódik, amíg már nem tapasztalható jelentős nyereség az információk terén.

Összességében egy hierarchikus (faszerű) struktúrát kapunk, amelynek a végén (az úgynevezett levelek) számos, a fonéma majdnem azonos kiejtésű kontextus gyűlik össze. Az ilyen statisztikailag levezetett fonéma kiejtést az angol szakzsargonban leafeme-nek nevezik, amelyet lefordíthatnánk levélhangnak. A hangos s lehet például levélhang, vagy az a és u keverése esetén röviden megjelenő hang.

Ennek az eljárásnak a végén mindegyik szó szirmok sorozataként modellezhető. És most van értelme a levélhangokat fenonikus modellel leírni, vagyis csak a jellemzővektorokat figyelembe véve. Ez megőrizte a fonetikus szómodell ökomóniáját, de jelentős előrelépést tett a fonémák kiejtési részleteinek és kontextusváltozatainak finomhangolásában. Az eredmény a beszédfelismerő valós idejű rendkívül kielégítő minősége.

Nyelvi modellek

Az eddig ismertetett módszerek segítségével a beszédfelismerő pontosabban egy számot kap, amely jelzi, hogy mennyire valószínű a jelenlegi beszédjel, ha bizonyos szót vagy szekvenciát feltételezünk. Nevezzük ezt szintézis valószínűségnek. Ezzel szemben valójában azt akarjuk tudni, hogy melyik szekvencia a legvalószínűbb, ha valaki a megadott beszédjelet veszi.

Ehhez az inverz következtetéshez az egyik feltételes valószínűségtől a másikig a statisztikákból származó Bayes-tételt kell használni, amely Thomas Bayes angol matematikusra (1702–1761) vezet vissza (vö. „Bizonytalan ismeretek”, Heidelberg 1993 könyvem 1. és 5. fejezetét). Azt mondja, hogy egy adott beszédjel esetében a szekvencia valószínűsége arányos a szintézis szorzatával és a szekvencia alapvető valószínűségével. Ha például a "Kant" szó szintézisének valószínűsége nagyobb, mint a "kéz", de a beszédfelismerési rendszert használják az orvosi területen, ahol a kezeket sokkal gyakrabban említik, mint a filozófusok, akkor ennek mégis a "kéz" -re kell következtetnie.

De hogyan találja meg - minden akusztikai szemponton kívül - egy szó vagy kifejezés alapvető valószínűségét? Az összes jelenleg használt rendszer nem tudásalapú, szövegértés-orientált megközelítéseket használ, hanem statisztikai nyelvi modelleket. Ezek a megfigyelt szekvenciák alapján rögzítik a szókapcsolatokat.

Beszédfelismerőnkben három szöveg (trigramm) szekvenciáira vonatkozó frekvencia-megfigyeléseket alkalmazunk nagy szöveggyűjteményekben, például az ügyfelek által. Ez a számlálás nem elegendő itt nyilvánvalóvá válni, ha figyelembe vesszük, hogy több mint billió trigramm képzelhető el 20 000 szóval. Még a kiterjedt szövegtestek is ritkán érik el ezt a méretet. Tehát meg kell becsülnie a megfigyeletlen trigrammok gyakoriságát, és becslésekkel korrigálni kell a megfigyelt frekvenciákat is. Ehhez olyan folyamatokat használunk, amelyek eredetileg a biostatisztikából származnak.

Néhány vizsgálatot folytatunk a nyelvi modellek területén. Tehát megpróbáljuk finomítani a trigrammak gyakorisági modelljét a beszéd részének beépítésével. Ez azt a tudást teszi például a rendszer számára elérhetővé, hogy a szekvencia cikk - főnév sokkal gyakoribb, mint a fordított.

A német nyelven számos olyan szóösszetétel (például "ízületi arthrosis") található a szövegekben, amelyek felesleges megterhelést jelentenek a szókincsben, mivel azok alkotóelemeit ("ízület" és "artrózis") általában már külön szavakként rögzítik a szókincsben. Jelenleg új megközelítést dolgozunk ki az összetett komponensek frekvenciájának becslésére.

Másrészt van értelme kiegészíteni a rögzített hosszúságú kontextus figyelembevételét, mint a trigrammák esetében, távolabbi szavak megfigyelésével. Különösen a német nyelven fordulnak elő gyakran széles körű függőségek ("Csak késő este érkezett meg"). Ígéretesnek tűnik itt a vonatkozó kontextusok szabályszerű statisztikai struktúrákkal történő megismerése és azok nyelvi modelljeinek megfogalmazása.

Tehát még mindig számos és a gyakorlat szempontjából releváns kutatási feladat van. Ennek ellenére már érdemes megfontolni a beszédfelismerés alkalmazását a munkahelyen.