TSM - Hogyan; megértjük a szállodai ügyfelek véleményét

Michael Matuschek - Team Lead Data Science @ TrustYou

Képzelje el, hogy egy paradicsomi nyaralóhelyre szeretne utazni, és meg akar győződni arról, hogy a választott szálloda biztonságos gyermekmedencét, jó reggelit és tiszta szobákat kínál, annak ellenére, hogy alacsony az ára a weboldalon. fenntartások. Talált néhány jó vagy rossz véleményt, de ezek közül néhány nem volt túl hasznos, vagy nem kapcsolódott az Önt érdeklő témához. Biztosan nincs időd átnézni a legjobb 100 értékelést, csak hogy meggyőződj arról, hogy a talált dolgok sajnálatos kivételek vagy portálmarketing-buktatók.

Nem lenne jó, ha valaki összefoglalót adna az ügyfelek véleményéről, ahelyett, hogy maga elvégezné az összes kutatást? Nem kellene a szállodavezetőknek tudniuk, hogy mit értékel az ügyfelek a többi helyhez képest? Mi teszi az ügyfeleket boldogtalanná?

A TrustYou-nál pontosan ilyen típusú információkat kínálunk szállodák vagy szállodaláncok szolgáltatásaként. Összegyűjtjük az összes vevői véleményt a világ több százezer szállodájából, terabájt adatként, majd elemezzük és automatikusan értékeljük őket, hogy lássuk, mi minden jó és különleges az egyes szállodákban, és lehetővé tesszük a szállásadók számára, hogy mit tudnak fejleszteni jobb ügyfeleiknek.

A müncheni, kolozsvári és madridi fejlesztőcsapataink felelősek az adatfeldolgozás különféle aspektusaiért, és webeszközöket valósítanak meg a szállásadók számára, hogy hozzáférjenek és megértsék a szálloda teljesítményét.

Feltérképezés - megtudjuk, mit írnak az ügyfelek

Az egész folyamat az interneten kezdődik. Itt írsz véleményeket a portálok foglalásáról, a dedikált értékeléssel rendelkező webhelyekről, a közösségi médiáról, a szállodai oldalakról és még sok másról.

Mindezen források különböző szintű bizalommal rendelkeznek. Ami a közösségi médiát illeti, bárki szinte bármit közzétehet. A szálloda webhelyein általában vannak moderátorok, akiknek célja a tiszta nyelv és a jó prezentáció. Az áttekintő webhelyek észlelhetik vagy nem észlelhetik a szomszédok rosszindulatú szállodája által kiadott csaló véleményeket, és ezt eltérő erőfeszítéssel és sikerrel tehetik meg. Másrészt a foglalási portálok meglehetősen egyértelműen meghatározhatják, hogy a véleményező valóban lefoglalt-e egy szobát, de ezek a portálok a tényleges felhasználókra korlátozódnak, és a lehető legtöbb éjszaka értékesítésével kapcsolatos kereskedelmi érdekeik befolyásolják a szűrés módját. és bemutatja áttekintéseit.

E dolgok ellenére mindezek a források megadják azokat a rejtvényeket, amelyek ahhoz szükségesek, hogy megértsék az emberek véleményét a nyaralás vagy üzleti tartózkodás helyéről. Az emberek jobban szeretik a különböző helyeket, ahol otthagyják a véleményüket, a személyes preferenciáktól eltérő okok miatt, az adott portálon való tartózkodásuk után kapott ösztönzés, valamint a környezettel való megértéshez és használathoz szükséges technikai háttér előtt. igaz. Csak az a teljes kép, amely az összes forrást figyelembe veszi, egy adott szálloda teljesítményének és sajátosságainak holisztikus megértéséhez vezethet.

Egyesek azt mondhatják, hogy manapság problémát jelent a csúszómászás. Mivel a legtöbb webhely hatalmas erőfeszítéseket tesz annak érdekében, hogy tartalmaik könnyen hozzáférhetőek legyenek a Google-on, felfogásunk szerint a bejárás nem lehet nehéz. De nem mindenki a Google. A foglalási portáloknak és a szállodacsoportoknak minden okuk megvan arra, hogy megosszák adataikat olyan vállalatokkal, mint a TrustYou, de más webhelyek sokkal igényesebbek a bejárási kísérletek engedélyezésében. Ezért a tartalom feltérképezése hatalmas mozgástér azoknak a partner üzleti vállalkozásoknak, akik speciális, strukturált webes API-k és tetszőleges weboldalak révén osztják meg adataikat, amelyek korlátozzák a HTML bejáró hozzáférését.

A HTML-oldalak elemzésével kapcsolatban nem minden webhely teszi lehetővé a tartalom kibontását. Néhányan nagyon jól tudják nyújtani a szemantikai metaadatokat és a jelöléseket, lehetővé téve az érdekes tartalomhoz való könnyű hozzáférést. Mások egy teljes HTML káosz, amelynek szerkezete folyamatosan változik a felhasználókat megcélzó A/B tesztek miatt.

Mindezek a kérdések szükségessé teszik egy nagy lánctalpas farm használatát a nagyszámú forrás és korlátozás kezelésére. Szükségünk van egy gyors és robusztus HTML elemző eszközre, amely megkönnyíti a kibontási szabályok gyors meghatározását és adaptálását, valamint egy szilárd tisztítási és deduplikációs folyamatra, amely rögzíti az ugyanazon áttekintés különböző helyeken történő előadásának kisebb, de gyakori változatait az idő múlásával. A Python programozási nyelv és az lxml eszközkészlet segített nekünk lépést tartani a követelmények/specifikációk ezen folyamatosan változó területén. Naponta több millió webhely meglátogatásával hetente több millió új felülvizsgálatot tudunk folyamatosan gyűjteni.

Szemantikus elemzés - megértjük a véleményeket

A vélemények kibontása és megtisztítása után azokat a Szemantikus Elemző Motorunk dolgozza fel, amely teljes egészében Pythonban íródott és az ingyenes NLTK (Natural Language Toolkit) könyvtárra épül. A munkaterhelés egy Hadoop-fürtön oszlik el több száz csomóponton, amelyek megfelelnek a feldolgozási igényeinknek.

Az alapvető cél az érzelmek elemzése, de nem csak a dokumentum szintjén (annak érdekében, hogy el lehessen dönteni, hogy a felülvizsgálat negatív vagy pozitív), hanem az objektum szintjén. Ezért nem csak átvizsgálhatjuk az érzéseket jelölő kifejezéseket, például a "jó" vagy a "rossz", és számszerűsíthetjük őket. Éppen ellenkezőleg, megpróbáljuk azonosítani azokat az érdeklődésre számot tartó entitásokat, amelyekről az emberek a véleményekben írnak (szobák, ágyak, reggeli, szolgáltatások stb.), És azonosítani az ezen tárgyakhoz kapcsolódó, érzésekre utaló szavakat vagy kifejezéseket. Egyszerű példa erre a "[a szoba] nagyon [tiszta] volt", ami pozitív asszociációhoz vezet, de a mondatok és kifejezések a kontextustól függően önkényesen összetettek vagy kétértelműek lehetnek. Például a "[szoba] [kicsi]" negatív megjegyzés, de az "[ár] [kicsi]" nem - ezért a maximális pontosság érdekében gondosan válogatott természetes nyelvtanokat, hierarchikusan rendezett nyelvtanokat és lexikailag orientált stílust és terminológiát használunk szálloda vélemények.

Így több mint 20 nyelvet tudunk lefedni, a legtöbb elérheti a 90% feletti pontosságot. Így korrekt és részletes képet alkothatunk az adott helyhez kapcsolódó kellemes és kellemetlen szempontokról, ezzel egyidejűleg kezelve az általános értékítéletek kiadását a hierarchiának való beszámolással. Például, ha az emberek panaszkodnak arra, hogy haj van a zuhany alatt, beilleszthetjük, hogy probléma van a szoba tisztaságával. Ennek a nagyfokú pontosságnak és lefedettségnek köszönhetően felbecsülhetetlen szolgáltatást kínálunk azoknak a szállodavezetőknek, akik gyorsan szeretnék tudni, mi történik és min kell változtatni az ügyfelek elégedettségének javítása érdekében.

Szállodai besorolás

A szálloda többé-kevésbé pozitív vonatkozásain túl, például a szoba nagysága és tisztasága, a szálloda jellemzői, amelyek csak néhány utazót érdekelhetnek. Tegyük fel például, hogy romantikus hétvégét szeretne eltölteni párjával - más szállodát szeretne keresni, mint amit egy kisgyerekes család keresne. Alternatív megoldásként néhányan szeretnének keresni egy szálloda sajátosságait, például kaszinót, wellness-központot vagy a tóra nyíló kilátást.

Az utazók döntéseinek elősegítése érdekében minden egyes szálloda érdemjelvényt kínálunk, amelyek a legjobb wellness szolgáltatásokkal rendelkező, a legromantikusabb, a családok számára legmegfelelőbb szállodákat jelzik az ügyfelek értékelése alapján. Ehhez az első kérdésre azt kell megválaszolnunk, hogy egy szálloda bizonyos típusú-e vagy sem, vagyis osztályozni kell a szállodákat.

Az osztályozás alapvető kérdés a gépi tanulás szempontjából. A gépi tanulási algoritmusok azonban alkalmazhatók a számvektorok szintjén, miközben a szöveggel (a szállodai vélemények tartalmával) foglalkozunk. Hogyan ábrázolhatunk egy szöveget numerikus vektor formájában?

Ennek többféle megközelítése van, mindegyiknek vannak előnyei és korlátai. Egyszerű, de nagyon hatékony megközelítés a TF-IDF, rövidítve: Term Frequency - Inverse Document Frequency. A dokumentumban szereplő kifejezés TF-IDF pontszáma olyan érték, amely jelzi, hogy a kifejezés mennyire fontos egy adott dokumentum számára, összehasonlítva más dokumentumok (vagy korpuszok) gyűjteményével. Például, ha korpuszunk a szállodai áttekintések gyűjteménye, akkor elvárhatjuk, hogy az olyan szavak, mint a "szoba" vagy a "recepció", nagy gyakorisággal forduljanak elő a korpuszban. De ha a "kaszinó" vagy a "chip-gépek" szavak váratlanul nagy gyakorisággal jelennek meg egy bizonyos szálloda esetében (de mások számára nem), akkor fontos dolgokat tudhatunk meg a szállodáról.

A szöveg vektorokon keresztüli ábrázolásának egyéb módszerei az úgynevezett word2vec beágyazások. Az alapgondolat az, hogy figyelembe vegyük a szövegkörnyezetet, amelyben egy szó megjelenik, a "kontextus" kifejezéssel a dokumentumban azt az elemet értve, amely közvetlenül egy szó előtt vagy után van. Az olyan szinonimák, mint az "okos" vagy "okos", hasonló összefüggésekben jelennek meg (például olyan szavak követik őket, mint "személy", "fiú" vagy "lány"). A word2vec beágyazások eredményeként kapott vektorok közel vannak egymáshoz, ha hasonló összefüggésekben jelennek meg, és képesek megragadni a kifejezések közötti kapcsolatot: szinonimák, antonimák vagy analógiák. Tipikus példa a "király" - "férfi" + "nő" = "királynő" egyenlet.

Meta vélemények - kivonjuk a lényeget

Mindezen lépések célja, hogy az ügyfelek gyors, pontos és tömör áttekintést nyújtsanak a szállodáról. A lényeget az úgynevezett Meta Review (Meta Review), a vélemények összefoglalójában vonjuk ki, de ennél többet.

Az értékelések szemantikai elemzéséből nemcsak a leggyakoribb panaszokat és dicséreteket kapjuk, amelyeket az ügyfelek a szállodával kapcsolatban tesznek, hanem érdekes részleteket is találunk, amelyek kiemelkednek. Ezen statisztikai megközelítés alapján a Natural Language Generation (NLG) motorunk folyékony, könnyen olvasható szöveget hoz létre, amely az összes áttekintett értékelés legfontosabb jellemzője - egy igazi "meta" áttekintés. Sőt, mivel egy nem nyelvű összefoglalót hozunk létre egy nyelvtől független tudás/megértés típusának ábrázolásából (azaz nem közvetlenül használunk valós értékelésekből származó mondatokat), az NLG könnyen alkalmazkodik a kimenet különböző természetes nyelveihez vélemények az összes értékelésből, az összes olyan nyelven, amelyet szemantikailag elemezünk. Más szavakkal, még akkor is, ha olyan szállodába megy, amelynek csak japán véleményei vannak, előnyeit élvezheti az angol, spanyol vagy más nyelvű meta-áttekintés, hogy megtudja, a helyiek jónak tartják-e a szállodát.

Az adatoktól a tudásig

Miután a nyers szöveges adatokat strukturált információvá dolgozták fel, sokat lehet vele tenni. Például a szállodák felhasználhatják az információkat, hogy részletesen megértsék teljesítményüket, és intézkedjenek az ügyfelek panaszai ellen, legyen szó barátságtalan recepciós személyzetről, rendezetlen medencékről vagy a WC-papír hiányáról a szobákban. Pozitívum, hogy a szállodatulajdonosok megérthetik, mi teszi őket különlegessé a többi szállodához képest, így az ügyfelek legrelevánsabb szegmensére összpontosíthatnak.

Másrészt a foglalási oldalak felhasználhatják az általunk nyújtott információkat a szálloda bemutatásának igazolására és javítására, hogy az ajánlások és a különleges ajánlatok könnyebben eljussanak az érdeklődőkhöz.