Folyamatos jelnyelvi felismerés nagy szókincsen - PDF ingyenes letöltés
Folyamatos jelnyelvi felismerés nagy szókincsen Philippe Dreuw, Morteza Zahedi, David Rybach, Thomas Deselaers, Hermann Ney [email protected] Jelnyelvi workshop 2006. október 27. Számítástechnika tanára 6 RWTH Aacheni Egyetem, Németország P. Dreuw et al.: Folyamatos Jelnyelvi felismerés 1 Jelnyelvi műhely 2006. 2006. október 27

Áttekintés 1 Bevezetés 2 Rendszeráttekintés 3 Szómodellezés 4 Eredmények 5 Következtetés P. Dreuw et al.: Folyamatos jelnyelvi felismerés 2 Jelnyelvi workshop 2006 2006. október 27.
1 Bevezetés Hasonlóságok: beszédfelismerés/jelnyelvi felismerés beszélt nyelv hangok időbeli sorrendje jelnyelv jelek/gesztusok időbeli sorrendje akusztikus jel akusztikus vektorok időbeli sorrendje, (hangok akusztikus megvalósítása) vizuális jel vizuális vektorok időbeli sorrendje (jelek vizuális megvalósítása) különbségek: nyelvtan A jelnyelv teremhasználatának és indexelésének párhuzamossága P. Dreuw és mtsai: Folyamatos jelnyelvi felismerés 3 Jelnyelvi Műhely 2006, 2006. október 27.
Problémák a robusztus felismerési rendszerekkel Nyelv Elszigetelt jelek Folyamatos jelek Hangszórók száma 00 11 00 11 000 111 000 111 0000 1111 00000 11111 00000 11111 000000 111111 0000000 1111111 0000000 1111111 00000000 1111111111 000000000 000000000 111111111111111111 0000001100 VAR különböző típusú problémák Sebesség Személyközi különbségek Nemek közötti dialektus koartikuláció Csend Mi különbözik jelentősen a beszédfelismerésben? Mi hiányzik? Adatok: kb. 400 óra nyelv vs. 5 10,7% 8,7% 8,7% 26,2% Szó gyakorisága a képzésben P. Dreuw et al.: Folyamatos jelnyelvi felismerés 11 Jelnyelvi workshop 2006. október 27.
Alkalmazás: A fej követése Problémák: 2.3 A kezek nyomon követése gyakran az arc előtt van. Fej forgása, erős arckifejezések Háttér: bőrszínek, szerkezet. Ötlet: kombinálja a bőrszín információit és az arcvonásokat P. Dreuw et al.: Folyamatos jelnyelvi felismerés 12 Jelnyelvi Műhely 2006. október 27.
Nyomkövetési példák Fej- és kézkövetés az RWTH-Boston-104 adatbázisban Fejkövetés az RWTH-Phoenix adatbázisban P. Dreuw et al.: Folyamatos jelnyelvi felismerés 13 Jelnyelvi workshop 2006. október 27.
2.4 Felhasznált funkciók Manuális jellemzők (a nyomon követéstől): Kézpozíció Kézmozgás Kézpálya utut 1 ut 2 Alapvonal beállítása: Megjelenés-alapú képfunkciók A képek 32 32 pixelre vannak csökkentve, és jó alapvonalként szolgálnak a képfelismerés számos problémájával, és sikeresek a gesztusfelismerésben. használt P. Dreuw és mtsai: Folyamatos jelnyelvi felismerés 14 Jelnyelvi Műhely 2006. 2006. október 27
3 Szómodellezés Felismerés nagy szókincsen: Az egész szómodellek nem használhatók, nem áll rendelkezésre elegendő oktatási anyag. Nagyobb memória szükséges. Megoldás: Szómodellek létrehozása a szóegységek összefűzésével. Előnyök: Az adatok el vannak osztva a szavak között, így több képzési adat van szóra Kiejtési lexikon felismert xyz:: x: x: 1. megfigyelés: yz: x 2. megfigyelés: yxx: z: y: Megfigyelés 3 x, y, z: Az alegységek címkéi P. Dreuw et al.: Folyamatos jelnyelvi felismerés 15 Jelnyelvi Műhely 2006, 2006. október 27
Szómodellezés A jelnyelvi felismerés problémái: A fonémák még mindig nincsenek egyértelműen meghatározva, nem áll rendelkezésre kiejtési lexikon. A fonémák egyidejűleg fordulnak elő (több áramlás), a jelnyelvi felismerésben lényegesen több fonéma fordul elő, mint a beszédfelismerésben. A jelnyelv-felismeréshez nem könnyen átvihető megközelítés Jelek, ismeretlen szóhatárok, kontextushatások a szóátmenetnél, mozgáspentézis, csend P. Dreuw et al.: Folyamatos jelnyelvi felismerés 16 Jelnyelvi Műhely 2006. október 27.
4 Eredmények Alapvető eredmények és kombináció kézi jellemzőkkel Példa mondatok Jellemző hibaarány skálázott kép 37,0 PCA-transzformált kép 27,5 + kézi pálya 23,6 Windows 21.9 Modellkombináció 17.9 MINDEN FIÚ GIVE TANÁR ALMÁK MINDEN FIÚ ADÁS TANÁR APPLE JOHN NEM VÁSÁROLHATJÁK A JOHN FUTURE-ot HOUSE ANN BLAME MARY ANN BLAME JOHN READ BOOK JOHN FUTURE FINISH READ BOOK P. Dreuw et al.: Folyamatos jelnyelvi felismerés 17 Jelnyelvi Műhely 2006 2006. október 27.
5 Következtetés Az eredményeket nyilvános adatbázisban szerezték. A rendszer nem igényel speciális hardvert vagy kesztyűt A jelnyelvi felismerés korszerű beszédfelismerő rendszerrel A megjelenés-alapú képfunkciók jó eredményeket érnek el a jelnyelv-felismerésben is. A beszédfelismerés számos alapelve közvetlenül átvihető a jelnyelvi felismerésre, különösen fontos: kontextusinformációk és nyelvi modellek P. Dreuw et al.: Folyamatos jelnyelvi felismerés 18 Jelnyelvi Műhely 2006. 2006. október 27
Kitekintés A beszéd- és képfelismerés további megállapításainak vizsgálata: Hangszóró adaptáció A felismerés további jellemzői Szómodellezés Térinformációk integrálása a felismeréstől fordításig Felismerés JOHN IX GIVE MAN IX ÚJ KABÁT JOHN GIVE IX ÚJ KABÁT Fordítás térinformációk nélkül Szobainformációk John kabátot ad odaát az embernek. P. Dreuw et al.: Folyamatos jelnyelvi felismerés 19 Jelnyelvi Műhely 2006. 2006. október 27
Köszönöm a figyelmét Philippe Dreuw [email protected] http://www-i6.informatik.rwth-aachen.de/ P. Dreuw et al.: Folyamatos jelnyelvi felismerés 20 Jelnyelvi Műhely 2006. 2006. október 27.
Függelék: Bayesi döntési szabály Video bemenet X T 1 Funkcióelemzés x T 1 Globális < Search: argmax Pr(w N 1 ) Pr(xT 1 wn 1 )>w1 N Pr (x T 1 wn 1) Pr (w N 1) Szómodell-készlet Nyelvi modell ŵ N 1 Elismert szekvencia P. Dreuw és mtsai: Folyamatos jelnyelvi felismerés 21 Jelnyelvi Műhely 2006. október 27.
Függelék: Saját felületek Egy X képet lineáris transzformációval vetíthetünk a tér felé: φ (x) = VT (X µ), ahol V = [v 1. vm] az első m sajátvektor mátrixa, µ pedig az átlag az edzésképek halmazán számított arc. A vetítés az arctérről a képtérre: φ 1 (X f) = V X f + µ, ahol X f a kép ábrázolása az arctérben φ (x). A kép és az előre és hátra vetített változat közötti távolságot arctér távolságnak nevezzük. Használható az arcosság mércéjeként. d f (X) = X φ 1 (φ (x)) 2 P. Dreuw et al.: Folyamatos jelnyelvi felismerés 22 Jelnyelvi műhely 2006. október 27.
Függelék: Sajátfelületek Példa a vetített képekre és az ebből adódó távolságra: X φ 1 (φ (x)) X φ 1 (φ (x)) df (X) 278 432 fejek: sf (ut 1, ut; X tt 1) = df (X t (ut)), ahol X t (ut) az X t kép téglalap alakú foltját jelöli u t helyzetben. P. Dreuw et al.: Folyamatos jelnyelvi felismerés 23 Jelnyelvi Műhely 2006. 2006. október 27
Függelék: Az LM Scales akusztikus modelljének és a nyelvi modellnek ugyanaz a hatása Bayes döntési szabályára Az α súly a nyelvi modellnél és a β súly az akusztikai modellnél: argmax w N 1 < p(w N 1 xt 1 )> < = argmax p α (w N w1 N 1 ) pβ (x T 1 wn 1 )> < >α = argmax w1 N β log p (wn 1) + log p (xt 1 wn 1) Az α β tényezőt nyelvi modelltényezőnek nevezzük. P. Dreuw et al.: Folyamatos jelnyelvi felismerés 24 Jelnyelvi Műhely 2006. 2006. október 27
Függelék: LM perplexitás A nyelvi modell és a teszt korpusz zavara w N 1 a következőképpen határozható meg: PP = p (w N 1 1) N [N = p (wnhn) n = 1 Mivel a perplexitás inverz valószínűség, ezért értelmezhető a lehetséges szavak átlagos számaként a szöveg egyes helyein. A zavartság logaritmusa megegyezik a szöveg entrópiájával, azaz. szavak redundanciája a teszt korpuszban e nyelvi modell vonatkozásában. ] 1 N log P P = 1 N N log p (w n h n) n = 1 P. Dreuw és mtsai: Folyamatos jelnyelvi felismerés 25 Jelnyelvi Műhely 2006. 2006. október 27.
Függelék: A kézpálya jellemzői kiszámítják a kovarianciamátrix becslésének geometriai tulajdonságait leíró geometriai tulajdonságokat leíró globális jellemzőket Σ t a kézpozíciók számára egy bizonyos időablakban 2 + 1 µ t = Σ t = 1 2 + 1 1 2 + 1 t + t = t t + t = tut Σ tvt, i = λ t, ivt, ii (ut µ t) (ut µ t) A kovarianciamátrix λ t, i és vt, i sajátvektorainak T sajátértékei használhatók globális jellemzőként. P. Dreuw et al.: Folyamatos jelnyelvi felismerés 26 Jelnyelvi Műhely 2006. 2006. október 27
Függelék: Kézpálya jellemzői 40 60 80 100 120 0 kézpozíciók ut sajátvektorok vi 20 40 60 80 100 120 140 160 kézi pozíciók ut sajátvektorok vi 140 60 80 20 40 60 80 100 60 kézi pozíciók ut sajátvektorok vi 180 0 20 40 60 80 100 120 140 160 180 70 kézpozíciók ut sajátvektorok vi 100 120 140 80 90 100 160 40 60 80 100 120 140 110 50 60 70 80 90 100 P. Dreuw és mtsai: Folyamatos jelnyelvi felismerés 27 Jelnyelvi műhely 2006. október 27.
Függelék: Eredmények - kontextus információk 40 ablakméret = 5 ablakméret = 3 ablakméret = 7 35 WER [%] 30 25 20 50 100 150 200 250 300 dimenzió Kombináció PCA-transzformált képek felvetésével P. Dreuw és mtsai: Folyamatos jelnyelvi felismerés 28 Jelnyelvi műhely 2006. 2006. október 27
Függelék: Eredmények - Nyelvi modellezés 80 70 60 zerogram unigram bigram trigram WER [%] 50 40 30 20 10 0 100 200 300 400 500 LM skála eredményei különböző nyelvi modellekhez és méretezési tényezőkhöz P. Dreuw et al.: Folyamatos jelnyelvi felismerés 29 Jelnyelvi műhely 2006. október 27. 2006