Az AI Microsoft vakoknak szóló alkalmazását németül is látja - DER SPIEGEL
A Microsoft fejlesztője, Saqib Shaikh

Fotó: Elaine Thompson/AP
Az okostelefon recepteket olvas fel, nyaralási fotókat ír fel és felismeri a partik barátait: két évvel ezelőtt a Microsoft a "Seeing AI" iPhone alkalmazással digitális társat adott ki látássérülteknek. Keddtől az alkalmazás az angol verzió mellett francia, spanyol, holland, japán és német nyelven is elérhető.
Saqib Shaikh, a Microsoft alkalmazás fő fejlesztője a SPIEGEL-nek adott interjúban elmagyarázza, hogy az alkalmazás mely új funkcióit tette lehetővé a mesterséges intelligencia (AI). Beszél a látássérült és vak emberek digitális társainak elképzeléseiről, valamint a fejlesztők előtt álló problémákról és arról, hogy miért kell türelmesnek lenned a technológia iránt.
Saqib Shaikh A Microsoft fő fejlesztőjeként ő felel a "Seeing AI" alkalmazásért. Shaikh hétéves korában elvesztette látását. A Microsoftnál segített a Bing keresőmotor és a Cortana hangsegéd fejlesztésében. Shaikh most elsősorban azzal foglalkozik, hogy a mesterséges intelligencia hogyan könnyítheti meg a látássérült emberek életét.
TÜKÖR: Shaikh úr, 15 évvel ezelőtt volt az első ötlete, hogy digitális társat alakítson ki látássérült emberek számára. A mesterséges intelligencia az a technológia, amelyre már várt?
Shaikh: Óriási előrelépéseket tettünk a mesterséges intelligenciával végzett kutatásban. De sok évre vagyunk attól, hogy a számítógépek körülnézzenek és megértsenek mindent, amit látnak. Magam is vak vagyok, ezért szeretek sétálni a feleségemmel és a barátaimmal. Ezután megbeszéljük, mit látnak menet közben. Mondják, amikor valami izgalmas dolgot fedeznek fel, vagy azt kérdezem, nem tudok-e hozzárendelni egy hangot. Kívánom, hogy egy nap egy AI tehessen ilyet. Mint egy személyes asszisztens.
TÜKÖR: Meddig kell várnunk, amíg a digitális segítők felváltják az emberi társakat?
Shaikh: Nagyon nehéz belátni a jövőbe. Csak vadul spekulálhatok. Nem tudom, lesz-e még két, három, négy vagy öt év. Olyan sok minden történik a terepen. Minden évben ennyi előrelépés történik egyrészt, másrészt viszont rendkívül nagy kihívásokkal is szembesülünk. Például egy mesterséges intelligencia számára még mindig nagyon nehéz felismerni, hogy az emberek pontosan mit csinálnak egy adott helyzetben.
TÜKÖR: Miben igazán jó az AI?
Shaikh: Az elmúlt években a számítógépek hihetetlenül gyorsan megtanulták átvenni az egyértelműen meghatározott feladatokat az emberektől. Mindenekelőtt egyre jobban felismerik a képeket és a nyelvet. Ezeken a területeken a mesterséges intelligencia a legfejlettebb. Ennek a technológiának köszönhetően a "Seeing AI" felhasználható például fényképek megérintésére. Ehhez a felhasználó megérinti okostelefonjának kijelzőjét, hogy megtudja, látható-e szöveg, arc vagy más tárgy az ujja alatt.
TÜKÖR: Az AI szövegfelismerésének látása elég jól működik. De a jelenetfelismerés még mindig rendkívül hibás. Az alkalmazás összekeveri a gyermek csúszdáit a tűzcsapokkal, a kerek ablakokat úgy értelmezik, hogy a stop jelek és a kőpadok sírkővé válnak. Mi olyan nehéz a tárgyak felismerésében?
Shaikh: A mesterséges intelligencia hároméves gyermeknek tekinthető. Rengeteg képet mutatsz neki, és elmondod neki: "Ez egy autó. Ez egy fa. Ez egy kutya." Kezdetben a gyermek csak olyan dolgokat ismer fel, amelyeket már látott. Aztán kezdi ezeket a dolgokat mondatokban leírni. A gyermekhez hasonlóan a mesterséges intelligencia is idővel jobbá válik. A tudósok azon is dolgoznak, hogy a képzési módszerek folyamatosan javuljanak.
TÜKÖR: Elég felelősség egy vak segítségével látássérülteket látni a világon.
Shaikh: Igen. De ez egy kutatási projekt. Számos funkció még mindig nagyon kísérleti jellegű. Ennek ellenére szeretnénk lehetőséget adni a felhasználóknak arra, hogy a lehető legkorábban részt vegyenek az új fejlesztésű Microsoft technológiákban. Előnyt élvez az a tény, hogy a felhasználók elmondják, mit gondolnak a funkciókról. Az alkalmazást ügyfeleinkkel együtt fejlesztjük.
TÜKÖR: Zavarja a felhasználókat, hogy az alkalmazás folyamatosan hibázik?
Shaikh: Egyeseknek nem feltétlenül kell tökéletesnek lenniük. Például egy felhasználó azt mondta nekem, hogy ünnepi fotókat szeretett volna elküldeni otthon a családjának. Még akkor is, ha az alkalmazás nem ismert fel mindent pontosan, legalább meg tudta különböztetni a fényképeket és kiválaszthatta a megfelelő képeket. Egy másik azt mondta nekem, hogy átvizsgálja a környéket, hogy van-e elérhető fotó a Facebook számára. Elég volt hozzá az alkalmazás durva leírása. Egy másik elmondta nekünk, hogy az alkalmazást használja a televízió forgatására focimeccseken, hogy megtudja az eredményt. A kommentátor túl ritkán említette a köztes eredményt. Mások italos dobozokat vizsgálnak, hogy megkülönböztessék a kólát a diétás kólától. Mindezek az apró dolgok hasznos társsá teszik az alkalmazást.
TÜKÖR: Az olyan cégek, mint a Google és a Facebook, nagy felhajtást keltenek mesterséges intelligencia-kutatásukban, párbajokat nyernek a bajnokok ellen és legyőzték a profi pókerjátékosokat. Mit csinál a Microsoft az AI felsőbbrendűségéért folyó versenyben?
Shaikh: Nagyon sok lehetőséget látunk az AI-ban a látássérült emberek életének javítására a "Seeing AI" segítségével. De kollégáink olyan eszközöket is fejlesztenek a nagyothallók számára, hogy például feliratokat valós időben jelenítsenek meg. Számos más példa is található, mint például a "Eye Gaze", amellyel a Windows PC-t csak a szeme mozdulataival vezérelheti.