Stefanie Jahn SS 2007 hangszóró - ppt videó online letöltés

Előadó: Stefanie Jahn SS 2007 klaszterelemzés Előadó: Stefanie Jahn SS 2007

1. Heterogén objektumok összességének problémaelemzése Cél: Az objektumok homogén részhalmazainak azonosítása az objektum összességéből A klaszteranalízisnek számos módszere van a csoportképzésre

Előzetes szempontok Az objektumok számának véletlenszerű mintákban reprezentatívnak kell lennie A kiugró értékek kizárása/kiküszöbölése csak a releváns jellemzők figyelembe vétele A jellemzők azonos súlyozása -> a korrelációk kizárása a torzulás veszélye miatt Nincs állandó jellemző a kimeneti mátrixban -> a torzítás kockázata Összehasonlíthatóság a változók standardizálásával a különböző A kimeneti adatok skála szintjei

Hiányzó értékek Az adatsort ki kell törölni a hiányzó értékekből: - Kihagyás: - Nagyszámú hiányzó értékű változók - A változók hiányzó értékeivel rendelkező esetek -> Probléma: Az esetek számának csökkentése, a hiányzó értékek cseréje az átlagos értékekkel -> Probléma: Esemény torzítása, ha túl gyakori előfordulás

2. Eljárás 2.1. A hasonlóság meghatározása 2.1.1. Bináris változó szerkezete 2.1.2. Metrikus változószerkezet 2.1.3. Vegyes méretarányú változó szerkezet 2.2. Az összeolvadó algoritmus kiválasztása 2.2.1. Felosztási módszerek 2.2.2. Hierarchikus eljárások 2.3. A klaszterek számának meghatározása

2.1. A hasonlóság meghatározása Kiindulópont: nyers adatmátrix K objektumokkal, amelyeket J változók írnak le. A mátrix a közelség mérőszámait tartalmazza (= hasonlóság és különbség mértéke)

2.1.1. Bináris változószerkezet-pár összehasonlítás: a tulajdonságértékeket összehasonlítjuk egymással 2 objektum esetében

Tanimoto, RR és M együtthatók

Használat: ha egy jellemző hiánya releváns (pl. Nem esetében: 1 = férfi, 0 = nő), akkor pl. M-együtthatót kell használni, ha egy jellemző nem létezése nem releváns, akkor tendencia van a Tanimoto vagy a Jaccard együttható felé.

A hasonlósági együtthatók használata többszintű változókhoz:

2.1.2. Metrikus változószerkezet A Minkowski-metrikák vagy az L-szabványok általánosan használt távolságmérések Az objektumpárok tulajdonságai közötti különbség elosztva az abszolút különbség értékeivel

r = 1 - várostömb metrika: = I1-2I + I2-3I + I1-3I = 1 + 1 + 2 = 4 az L1 normával, az összes különbségértéket egyenlő súllyal = legnagyobb hasonlósággal veszik fel a számításba; = a legnagyobb különbség

r = 2 - euklideszi távolság: = I1-2I2 + I2-3I2 + I1-3I2 = 12 + 12 + 22 = 6 nagyobb különbségek nagyobb figyelembevétele négyzettel

Eredmény: A távolságmérés megválasztása befolyásolja a vizsgálandó objektumok hasonlósági sorrendjét Fontos: összehasonlítható mértékegységeket kell használni -> egyébként szabványosítás!

A Q-korrelációs együttható kiszámítja 2 objektum hasonlóságát, figyelembe véve az objektum összes változóját = a legnagyobb hasonlóság; = a legnagyobb különbség

Miért különbözik Rama és a karácsonyi vaj a Minkowski-mutatóval a leginkább, de leginkább a Q-korrelációs együtthatóval? Távolságmérők használata, ha az objektumok közötti abszolút távolság érdekes, és az eltérés növekszik a távolság növekedésével -> például hasonló értékesítési méret/szint az idő múlásával. Hasonlóságmérők használata, ha hasonlósági szempontról van szó két profil szinkronizálásában, függetlenül a szinttől -> pl. hasonló értékesítési folyamatok az idő múlásával

2.1.3. Vegyes méretarányú változószerkezet A) A metrikus és a nem metrikus változók esetében a hasonlósági együtthatókat vagy távolságokat külön kell kiszámítani. Összességében hasonlóság = a számított változók súlyozatlan vagy súlyozott átlaga

pl .: Rama és Flora: M-együttható távolság = 1-0,7 = 0,3 a metr esetében. A tulajdonságok négyzetre osztva az euklideszi távolság = 4 => súlyozatlan számtan. Átlag: 2,15 => súlyozás a metr. és nem metr. távolság

B) Átalakítás magasabb skáláról alacsonyabb szintre Dichotomizálás: Ár 1,59 € = 0-ig, 1,60 € = 1 = nagy információvesztés, önkényes. Az interfész meghatározása? Forma intervallumok vagy: az ár meghaladja az 1,40 € -t? igen = 1, nem = 0 Ára több mint 1,70 €? igen = 1, nem = 0 ... minél kisebb az osztálytartomány, annál kisebb az információvesztés, a helytelen súlyozásból fakadó torzulás veszélye

2.2. Az összeolvadó algoritmus kiválasztása A hasonlósági értékek alapján csoportokba történő egyesítés az (agglomeratív) klaszteranalízissel összefoglalja a megfigyelt eseteket, míg végül az összes eset egy csoportba esik a particionálási módszerek lehetséges differenciálásában hierarchikus módszerek

2.2.1. A particionálási módszerek, az előre definiált csoportosítás az objektumok adott csoportosításán alapul, átrendezés a csoportok közötti cserealgoritmus segítségével az optimálisig

A fürtözés befejezése, amikor az összes objektum befejeződik a fürtözés, amikor az összes objektum megszűnik. az áthelyezésüket megvizsgálták, és a varianciakritérium javulása nem érhető el -> végződésnek kell megtörténnie, különben túl sok lehetőség van -> lokális optima érhető el a globális optima 2 helyett a "start partíció megváltoztatásával" kapcsolatos döntési problémák helyett: 1. Határozza meg, hogy az objektumok hány csoportban vannak 2. Határozza meg azt az üzemmódot, amely szerint az objektumokat el kell osztani a rajtcsoportok számára (véletlenszerű számok táblázata alapján, a számozás sorrendje szerint, ...)

A particionálási módszereket nagyobb változatosság jellemzi az agglomeratív hierarchikus módszerekhez képest. A particionálási módszerek kevésbé gyakoriak a gyakorlati alkalmazásokban. Okok: - Az eredményeket erősebben befolyásolja a célfüggvény - A kiindulási helyzet megválasztásának gyakran szubjektív igazolása befolyásolhatja az eredményt - Csak lokális optimum érhető el

2. 2. 2. Hierarchikus eljárások 2. 2. 2. 1 2.2.2. Hierarchikus eljárások 2.2.2.1. Az agglomerációs folyamat agglomerációs folyamata - a legfinomabb partíció a kiindulópont -> csoportosítás

Különbségek az aggl között Különbségek az aggl között. Az eljárások csak abból adódnak, hogy miként határozzák meg a távolságokat P + Q objektumok és bármely R csoport közötti távolság: D (R, P + Q) = A * D (R, P) + B * D (R, Q) + E * D (P, Q) + G * ID (R; P) -D (R, Q) I a következőkkel: D (R, P): az R és PD csoportok közötti távolság (R, Q): a csoportok közötti távolság R és QD (P, Q): A P és Q csoport közötti távolság

egyesíti azokat a tárgyakat, amelyek távolsága a legkisebb 2.2.2.2. A „Single-Linkage”, a „Complete Linkage” és a „Ward” Single Linkage eljárások eljárásai a legkisebb távolságú objektumokat ötvözik.A legközelebbi szomszéd eljárás Az SLV mindig a legkisebb értéket rajzolja, mint két csoport közötti új távolság Az egyéni távolságok megközelítése -> ezért alkalmas a "kiugró értékek" felismerésére, hajlamos sok kis és kevésbé nagy csoportot alkotni -> hajlam a láncok kialakítására

Teljes összekapcsolási módszer a legnagyobb távolságokat használják távolságként = a legtávolabbi szomszéd módszer. A távolság most a legnagyobb egyéni távolságnak felel meg

inkább olyan kis csoportokat alkot, amelyek nem alkalmasak „kiugró értékek” kimutatására az egyes értékek legnagyobb távolságának használata miatt

Ward módszer Cél: azoknak az objektumoknak az egyesítése, amelyek a csoport szóródását a lehető legkevésbé növelik -> ezáltal a lehető leghomogénebb klasztereket hozva létre a heterogenitás mértékeként, varianciakritériumot használnak = négyzetek hibája összege (FQS) A kvadrát kiszámítása. Eukleidész. Távolság az összes objektum között FQS az első lépésben = 0, mivel minden objektumnak megvan a maga csoportja -> még nincs szétszórva

4 * 0,5 = 2 (= FQS) 6,667 * 0,5 = 3,333 3,333 + 2 = 5,333 11 * 0,5 = 5,5 5,5 + 5,333 = 10,833

A Ward-módszer távolságmérő változókat kell metrikusnak lennie, és nem korrelál a korrelálatlan változókkal, amelyek fontos elvárások az azonos méretű csoportoktól. hosszúkás csoportok vagy kis elemszámú csoportok, amelyek nem ismerhetők fel. Javaslat: - Az SLV először a kiugró értékek felkutatásához - A kiugró értékek „kiküszöbölése” - A csökkentett számú objektum újbóli vizsgálata egy másik agglomerációs módszerrel - A módszert a megfelelő alkalmazási helyzet hátterében kell kiválasztani

2.3. A klaszterek számának meghatározása Döntés arról, hogy mely klaszterek száma a "legjobb" megoldás, amelyet alkalmazni kell. A kezelhetőség és a homogenitási követelmény közötti célkonfliktus megoldása. A klaszterek számát statisztikai kritériumok szerint kell meghatározni; a heterogenitás mértékének kialakulását nem lehet ténybeli megfontolások alapján figyelembe venni a döntés támogatására (-> a négyzetek hibaösszege Ward módszerében) grafikus pontosítás dendrogramot ad

A heterogenitás alakulását ábrázoljuk a hozzá tartozó klaszterek számával egy koordinátarendszerben -> 4-fürtös megoldás