Intelligens szobák - a tudomány spektruma

Intelligens szobák

Néha azt szeretné, ha a ház mindig tudná, hol vannak a gyerekek, és tudatja Önnel, ha valami veszélyes dolgot cselekedtek; vagy az iroda meg tudta mondani, hogy mikor zajlik egy fontos megbeszélés, és nem hívhatott. És mi lenne, ha autója felismerné, hogy hosszú utazás után elfárad, és arra ösztönzi, hogy kellő időben tartson egy kis szünetet?

Régóta próbálkoztak ilyen teljesítményű számítógépes rendszerek fejlesztésével. Hamarosan a gépek átvehetik a babysitterek vagy a titkárok bizonyos feladatait.

Miért nem tudtad ezt megtenni régen? Ennek fő okát abban látom, hogy a számítógépek siketek és vakok: A világról csak billentyűzeten és egéren keresztül szerezhet információt. Még a mikrofon és a kamera sem segít, amíg az általuk szolgáltatott adatokat csak továbbítják vagy tárolják, de értelmezésük nem értelmezhető. Úgy gondolom, hogy a gépnek sokkal tágabb értelemben kell érzékelnie, hogy a felhasználó mit csinál, mielőtt valóban hasznos lehet számára. Sőt, képesnek kell lennie arra is, hogy felismerje személyét és képes legyen felfedni szándékait - legalábbis olyan korlátozott mértékben, amennyire egy másik személy vagy akár egy kutya képes.

Ahhoz, hogy közelebb kerüljek ehhez a célhoz, kutatócsoportom nemrégiben olyan rendszereket dolgozott ki, amelyek felismerik az arcokat, az arckifejezéseket és a gesztusokat. Már használhatjuk olyan környezetek felépítésére, amelyek bizonyos szempontból viselkednek, például a fent leírt házban, irodában vagy autóban.

Ezek az intelligens helyiségek, ahogy hívjuk őket, kamerákkal és mikrofonokkal vannak felszerelve, amelyek adataiból a számítógépek hálózata kiértékeli, hogy az emberek mit mondanak és mit tesznek a felvett területen. Használhatja testmozgásait, beszédét és arckifejezéseit a rendszer utasításainak megadásához, multimédiás információk előhívásához vagy virtuális világba való belépéshez - billentyűzet és egér, valamint esetlen adatkesztyű és sisak nélkül.

A fő gondolat: Mivel az intelligens helyiségek tudnak valamit a lakóikról - közvetlen észlelésből vagy más forrásokból - intelligensen reagálhatnak cselekedeteikre.

Trevor Darrell és Bruce M. Blumber doktoranduszok Pattie Maes-szel és jómagammal együttműködve 1991-ben Cambridge-ben, a Massachusettsi Műszaki Intézetben média laboratóriumunkban megépítették az első intelligens szobát. Ez hamarosan egy kísérletet eredményezett, amelyben több munkacsoport vett részt. Most öt ilyen szoba van, mindegyiket telefonvonal köti össze: három Bostonban, egy Japánban és egy az Egyesült Királyságban. További installációkat terveznek Párizsban, New Yorkban és Dallasban.

A szobák mindegyike több számítógéppel felszerelt. Ezen eszközök egyike sem erősebb, mint egy normál számítógép; mindegyik egy adott feladathoz készült és felelős, például az egyik a képek elemzéséért, a másik a hangokéért, egy harmadik pedig a gesztusokért. Ha több készségre van szükség, egyszerűen hozzáadunk több gépet.

A különbségek ellenére minden felismerési szolgáltatás ugyanazon statisztikai elven alapszik: a hitelesség maximalizálása (maximális valószínűség-elemzés). A számítógépek összehasonlítják a bejövő adatokat a tárolt modellekkel, kiszámítják a megfelelés mértékét és végül meghatározzák az adatokhoz legjobban illeszkedő modellt.

Mielőtt egy intelligens szoba megtudná, hogy mit csinál a felhasználó, meg kell találnia őket. Ehhez kifejlesztettünk egy Pfinder nevű rendszert (személykeresőnek), amely regisztrálja és nyomon követi az ember tartózkodási helyét, amíg a szobában mozog.

Ebben az esetben a rendszernek egy emberi test modelljére van szüksége a maximális valószínűség-elemzéshez: a lehető legkevesebb numerikus értékkel rendelkező leírás, amely ennek ellenére elég pontos ahhoz, hogy összehasonlítható legyen a videokamera adataival. Modellünk néhány egyszerű, egymáshoz kapcsolódó geometriai alakzatból áll, amelyeket foltoknak hívunk (szó szerint: foltok vagy csomók). Hét folt - kéz és láb, valamint fej, felső és alsó test - elegendő (1. kép). A foltot színével és geometriai méreteivel jellemzik a helyzet, a tájolás és az alak szempontjából. Ezenkívül vannak információk arról, hogy ezek az információk mennyire pontosak vagy megbízhatóak: A pozíciókoordináta vagy a színspecifikáció egyetlen száma helyett eloszlás van egy átlagérték körül (pontosabban: kovarianciamátrix).

Bizonyos mértékben az eredmény egy olyan modellkoncepció, amelyet a rendszer a helyiségből és a benne lévő emberekből készít: egy kövér, megfelelő helyzetű és testtartású, próbabábu a helyiség háttér textúramodelljébe illesztve. Ezzel a képpel a Pfinder összehasonlítja a videokamera minden új felvételét; A program létrehoz egy listát, amely megmutatja, hogy a modell szerint melyik raszterpontnak (pixelnek) melyik blobhoz kell tartoznia.

Extrapolál a múltból: ha a felhasználó felsőteste egy tizedmásodperccel korábban jobbra, egy méter másodpercenként elmozdult, Pfinder arra gyanakszik, hogy a folt közepe, amely a felsőtestet a következő tizedmásodperc alatt jobbra jobbra modellezi. Ezeket az előrejelzéseket úgy módosítják, hogy összehasonlítják azokat a tipikus mozgásmintákkal, amelyeket a rendszer több ezer ember megfigyeléséből nyert ki. Például az extrapoláció magában foglalja azt a tapasztalatot, hogy a felsőtest hajlítható az alsó testhez képest, de nem ellensúlyozható, vagy hogy a kezek és a lábak lényegesen gyorsabban mozognak, mint a csomagtartó.

A következő lépésben a program összehasonlítja a bemutató képet és a kameraképet úgy, hogy pixelenként levonja mindkét kép színét és fényerejét, és az eredményt valószínűségi állításként értékeli. Például, ha egy pixel fényerejének különbsége 10 százalék, és ugyanakkor a társított folt elosztási függvénye azt mondja, hogy ilyen különbség csak az esetek 1 százalékában fordul elő, akkor annak esélye, hogy ez a képpont ehhez a blobhoz tartozik, csak 1 az 100-ból.

További beállításokra van szükség. Ha például a felhasználó testének egy része árnyékban van, vannak olyan fényerő-különbségek, amelyeknek semmi közük az említett valószínűséghez. A Pfinder ezért megkeresi az árnyékokat - amelyeket a vártnál sötétebb területekként definiálnak - és a képpontjaik színértékeit egységes fényerőre korrigálja.

A világítás megváltoztatása vagy a tárgyak elrendezése a helyiségben szintén a rendszert helytelenül rendelheti hozzá. Például, ha a felhasználó levesz egy könyvet az asztalról és leteszi a polcra, a háttér két helyen változik: a könyv régi és új helyén. Ezért a Pfinder folyamatosan frissíti a háttér adatait - vagyis azokat a képpontokat, amelyeket nem foglalnak el foltok - a régi és az új színértékek átlagolásával.

Mindezen különféle számítások és kompenzációk után Pfinder végül meghatározza azt a foltot, amelyhez a legközelebb tartozik az új kép minden egyes pixeléhez. Ez viszont új értékeket nyer a blob modell és a háttér adataihoz, valamint az aktuális sebességekhez, amelyeket a következő kép extrapolálásához használnak. Ily módon a rendszer mindig naprakész marad az aktuális kép és a képzelet közötti szüntelen kölcsönhatásnak köszönhetően.

Ki és hogyan?

A következő feladat annak meghatározása, hogy kik vannak a szobában és mit kell mondani. Már sok algoritmus létezik a beszédfelismerésre (Spektrum der Wissenschaft, 1994. március, 86. oldal). Gyakorlatilag ezek a rendszerek csak akkor működnek kielégítően, ha a mikrofon a hangszóró közvetlen közelében van. Az a szoba, amely csak azt a személyt érti, aki egy bizonyos ponton áll - mégpedig a mikrofon előtt -, nem lenne különösebben intelligens; A beszédnek akkor is felismerhetőnek kell lennie, ha a hangszóró szabadon mozog a szobában, és még mindig vannak zajok.

Megoldásunk erre a problémára azon alapul, hogy a Pfinder mindig tudja a felhasználó helyzetét. Ezért kiszámítható a hang átmeneti ideje a szájától a több állandóan telepített mikrofonig. Az elektronikus késleltető áramkörök biztosítják, hogy a rendszerben lévő összes hangszóró hangjel egyidejűleg összeérjen, és így összeadódjon, miközben az összes többi értékét átlagoljuk. Így kap megfelelő minőségű jelet; összehasonlítják az ismert szavakéval, és azt, amelyiknek maximális egyezése van, beszéltnek tekintik.

Ugyanolyan fontos, mint egy utasítás megértése, gyakran tudni, hogy ki adja meg. A személy felismerésének leggyorsabb módja minden bizonnyal az arca. A rendszernek először az összes arc modelljére van szüksége, amelyet azonosítania kell. A lineáris algebrából származó matematikai módszer, a sajátvektor-elemzés valami hasonló mesterséges standard arcot eredményezett; Eigen arcoknak hívjuk őket. Bármely arc úgy jön létre, hogy az egyes arcokat megszorozzuk egy bizonyos tényezővel, majd mindegyiket additívan egymásra helyezzük; az elemzéshez szükséges arcmodell ezeknek a súlyozási tényezőknek a rendszere.

Ha az intelligens szoba kamerája már felfedezett egy személyt, az azonosító rendszer elszigeteli a Pfinder által korábban elhelyezett arcot a környezettől és normalizálja annak kontrasztját. Ezután a program kiszámítja, hogy mennyire hasonlít az egyes sajátfelületekre, vagy mi jelenti ugyanazt a dolgot, mely súlyozási tényezőket kellene használni a sajátfelületekből való összeállításához. Ezek a hasonlósági értékek egy olyan modellt eredményeznek, amelyet összehasonlítanak a már ismert emberek tárolt modelljeivel. Intelligens szobáink megtalálták a megfelelő embert a több száz fős tesztcsoportokból, 99 százalékos találati aránnyal.

Ráadásul. Például egy oktatóprogramnak tudnia kell, hogy a hallgatók érdeklődnek vagy unatkoznak-e. Intelligens szobánk ezért elemzi a kifejezést, amint arcot talált és felismert (2. ábra). Ehhez egy speciális számítógép összehasonlítja az arc mozgásait a bizonyos érzelmekre jellemző mozgáskönyvekkel (3. és 4. ábra). Aki mosolyog, megfordítja a szája sarkát, és felemeli a homlok bizonyos részeit; ha csak mosolyt utánozol, csak a szádat mozgatod meg. Rendszerünknek sikerült a vizsgált személyek kis csoportjában 98% -ig helyesen meghatározni a kiválasztott arckifejezéseket.

Végül is, ahhoz, hogy a házak, irodák és autók valóban hasznosak legyenek, össze kell kapcsolniuk a személy identitásának, arckifejezésének és nyelvének elemi észlelését. Hiszen egy és ugyanaz a mozdulat nagyon eltérő módon értelmezhető, attól függően, hogy mire készül a kezdeményezője. Az a sofőr, aki leveszi a lábát a gázpedálról, érdemes megállni - vagy megfordulni. Van azonban észrevehető különbség: ha meg akar fordulni, felveszi a jelzőt, és más módon teszi a kezét a kormányra, hogy felkészüljön a kanyarra. A számítógépes rendszernek ezért figyelembe kell vennie az áram és a közvetlenül megelőző mozgások kombinációját.

Ebből a célból átvettük az alapelveket az automatikus beszédfelismerés technológiájából: A szót egy ilyen rendszeren belül állapotok - fonémák (egyedi hangok) vagy fonémák részei - szekvenciája modellezi, bizonyos átmenet valószínűséggel egyik állapotból a másikba: úgynevezett Markov-lánc ( Spectrum of Science, 1994. március, 90. oldal). A kimondott szó felismerése érdekében a rendszer megpróbálja összhangba hozni a hangjelet a különböző Markov-láncokkal; végül annak dönt, aki a legjobban működik vele.

Ezt a megközelítést általánosítottuk annak érdekében, hogy az automaták következtethessenek szándékaikra az ember mozgásából. A fonémák helyét bizonyos elemi mozdulatok veszik át. Például meg kell különböztetni, hogy az ember csak kinyújtott karral lézeng-e, vagy mutat valamire. A bemutatáshoz a rendszernek van egy belső állapota, amely három állapotból áll: emelje fel a kezét, tartsa mozdulatlanul és gyorsan vonja vissza. A kar puszta kinyújtásához azonban csak egy folyamatos mozgást vár.

Az eddig kifejlesztett cselekvési értelmezési rendszerek közül a legegyszerűbb lehetővé teszi a felhasználó számára, hogy testmozgásokon keresztül befolyásolja a virtuális környezetet. Az ALIVE (Artificial Life Interaction Environment), Pattie Maes és az enyém csoportjának közös erőfeszítése, a Pfinder által megadott felhasználói leírást videomodellé alakítja, amely egy virtuális, számítógéppel létrehozott életformában van feltöltve. A környezet él. A fantáziaállatok értékelik a gesztusokra, a nyelvre és a felhasználó helyzetére vonatkozó információkat, és reagálnak azokra (1. kép). Ha úgy mozog, mintha botot szedne és messzire dobná, az ALIVE környezetben a videokép is ezt teszi - és Silas, egy virtuális kutya, elszalad, és elhozza. Silas parancsra ülhet is, vagy meggurulhat magán.

Az intelligens helyiség kimeneti adatai sokkal közvetlenebb módon is felhasználhatók. Például a felhasználó pozíciója átvihető egy virtuális vezérlőterembe; egy szó vagy egy kézmozdulat ezután közvetlenül utasításként hat egy számítógépes programra.

Ez lehet videojáték képzeletbeli háromdimenziós környezetben, amely a szokásos vezérlők, például joystickok nélkül működik. Ha egy ellenség balról közelít a díszletbe, akkor a játékosnak - a valódi szobában - csak balra kell fordulnia, virtuális pisztollyal fel kell emelnie a kezét, és "bumm" -ot kell kiáltania, és az ellenfél nyikorogni fog.

Vannak azonban komoly felhasználási lehetőségek is. A meglehetősen bonyolult amerikai jelnyelv (ASL) jól teszteli szobánk képességeit; ezért felépítettünk egy rendszert értelmezésükhöz (6. ábra). Az egyes karakterek modelljeit a vonatkozó kézmozdulatok számos felvételének kombinálásával hoztuk létre - Pfinder elemezte. Eddig a rendszer 40 ASL szót valós időben felismert, 99,2 százalékos pontossággal. Állandó felismerési arány mellett és megnövelt szókincs mellett lehetővé kell tenni a siket és a néma beszédfelismerési rendszer létrehozását.

Nem véletlen, hogy többször említettem az autót: A legtöbb közúti balesetet a vezető hibái okozzák. Ezért intelligens pilótafülkét fejlesztünk Andy Liu-val, a cambridge-i (Massachusetts) Nissan vállalat alapkutató intézetének tudósával együtt. A hosszú távú cél egy olyan jármű, amely nyomon követi a vezető cselekedeteit és hasznos információkat nyújt: a jármű helyes útvonaláról és kezeléséről a veszélyekre figyelmeztetésig.

A fejlesztés megint a modellezéssel kezdődött. Szimulált pályán számos sofőr kéz- és lábmozgásából viselkedési modelleket vezettünk le a tipikus tevékenységekhez: az akadály elkerülése, egy másik jármű követése, kanyarodás, megállás, sávváltás és sávváltás (5. ábra). Ezzel a rendszernek a lehető leggyorsabban osztályoznia kell a tesztvezető tervezett műveleteit. Meglepetésünkre a találati arány fél másodperc után 86, két másodperc után 97 százalék volt.

Legalábbis egyszerű helyzetekben lehetőség van az ember mozgásának nyomon követésére, azonosítására és bizonyos megnyilatkozások és arckifejezések értelmezésére - és mindezt valós időben, szerény számítási erőfeszítéssel. Rendszereink képességei sokféleképpen kombinálhatók. Így fejlesztünk olyan szemüveget, amelyet az emberek felismernek és a viselőjük fülébe súgják a nevüket. Olyan televíziós képernyőkön dolgozunk, amelyek regisztrálnak, amikor valaki keres. És tervezzük olyan hitelkártya kifejlesztését, amely ismeri a tulajdonosát - és így azt is, hogy ellopták-e.

Médialaboratóriumunk más kutatócsoportjai azon dolgoznak, hogy az intelligens tereket felszereljék az emberi cselekedetek és motívumok mélyebb megértésével. A további fejlődéssel a számítógépes rendszerek egyre inkább önálló, figyelmes asszisztensként fognak viselkedni.

Bibliográfia

- Vizuálisan vezérelt grafika. Írta: A. Azarbayejani, T. Starner, B. Howowitz és A. Pentland: IEEE tranzakciók a minták elemzéséről és a gépi intelligenciáról, 15. kötet, 6. szám, 602–604. Oldal, 1993. június.

- Az ALIVE rendszer: Teljes test interakció az autonóm szerekkel. P. Maes, T. Darrell, B. Blumburg és A. Pentland: Proceedings of Computer Animation '95, 1995.

- Arckifejezés felismerése dinamikus modell és mozgásenergia felhasználásával. Írta: I. A. Essa és A. Pentland: A számítógépes látásról szóló ötödik nemzetközi konferencia anyagai. IEEE Computer Society Press, 1995.

- A kiterjesztett vezérlőrendszerek felé. Írta: A. Pentland és A. Liu: Az intelligens járművek '95 szimpóziumának közleményei. IEEE Ipari Elektronikai Társaság, 1995. szeptember.

- Valós idejű amerikai jelnyelv videóból rejtett Markov modellek használatával. T. Starner és A. Pentland: Nemzetközi szimpózium a számítógépes látásról, 1995. IEEE Computer Society Press, 1995.

- Pfinder: Az emberi test valós idejű követése. Írta: Christopher Wren, Ali Azarbayejani, Trevor Darrell és Alex P. Pentland in: Integration Issues in Large Commercial Media Delivery Systems. Szerk .: A. G. Tescher és V. M. Bove. SPIE, 2615, 1996.

- A Massachusettsi Műszaki Intézet médialaboratóriumának számos cikke és jelentése található a világhálón a http: // www-white címen. media.mit.edu/vismod.