Döntési és regressziós fák

Döntési fák és regressziós Random Forests együttesek

döntési

Adatok és modell Az alapelv általános Osztályozás Regresszió Formális: az edzésadatokat X i vektorok formájában, Y i címkékkel látjuk el. A címkék a következők: Kategóriák (diszkrét) osztályozáshoz Folytatás regresszióhoz

Indukció Az indukció elve: Szabályokat vonunk ki a példákból Feltételezzük, hogy a szabályok akkor is érvényesek, ha sok adattal rendelkezünk

Osztályozási és regressziós fák A fa egy prediktív modell, amely: bináris döntések halmaza alapján épít, kimeneti értéket számol A regresszió és a besorolás (az építés során) közötti különbséget az objektív függvény adja meg.

Induktív megközelítés használata Konkrét adatok felhasználása sokkal általánosabb szabályok felépítéséhez Boole-tesztek sorozatán alapuló prediktív modell A tesztek sorrendje erősebb, mint sok komplex osztályozó. Hogyan néz ki egy döntési fa Hogyan néz ki egy döntési fa?

Ez az állat az. A macska vagy a kutya súlya> 6 kg percenként, alvás közben, szépségindex) a szépségmutató nem hasznos Igen Nem Milyen állatot ír le a (45,80, 10 9) Macskakutya, de (8 180,18,7)

Induktív tanulás Ebben a döntési fában bináris döntések sorozatát hoztuk meg, és felépítettünk egy ágat. Egy állat: milyen hányingere van? Meddig alszik? Mi a pulzusod? Ha ezekre a kérdésekre IGEN vagy NEM választ adunk, megkülönböztetünk kutyákat és macskákat

Adatok táblázatban Képzési készlet Példa Tulajdonságok Címke Súly Pulzusszám Csipkerózsika Mancs 5 100 8 5 Kutya - Labrador Puffy 3,5 180 16 9 Macska - Európai Max 65 45 13 7 Juhászkutya Rex 6 130 16 8 Kutya canis Dingo 00 15 7 macska - slabanog Brutus 1,5 140 7 1 kutya - pekingi Asci 15 160 19 8 macska - holnap coon gras Mutzi 1 130 0 macska - elhízott karamell 5 10 16 9 macska - burmai fekete 4 0 16 10 macska - norvég neige 0 80 18 10 Kutya - Husky Garfield 8 180 19 4 Macska - vörös hajú Toto 30 85 1 6 Kutya - corcitura

Az attribútumok megválasztása Az előző táblázat 4 tulajdonságot mutat: súly, pulzus, alvás időtartama és szépség. De a döntés csak három alapján történik. A szépség nem releváns Miért? Ez jó?

A döntési fa létrehozásának módját az attribútumok listája írja le. Az attribútumok lehetnek diszkrétek vagy folytonosak. Fontolja meg mindegyik attribútumot sorban, és az aktuális pillanatra válassza ki azt, amelyik a legjobb osztást hozza létre. Állítson be egy küszöbértéket, és kapjon két olyan alproblémát, amelyek rekurzív módon hasonlóan oldódik meg

Fa építése Képzés Milyen változókat használnak a jelenlegi összehasonlításban és hol? Mikor állunk meg? Folytatjuk? A terminál csomópont címkét kap.

Algoritmus a döntési fához Az alapgondolat a következő: Válassza ki az összehasonlításhoz a legjobb attribútumot, és ossza fel a példákat a meghozott döntésnek megfelelően, az adott attribútum alapján. Ismételje meg a folyamatot rekurzívan, minden egyes alfa esetében Megállunk, amikor: Minden bíróság egy alprobléma azonos címkével rendelkezik. Nincs több kipróbálandó attribútum Nincs több adat

Osztályozás Optimalizálandó intézkedés: GINI index (szennyeződési index) GINI (X) 1 N p i i1 P i i osztály relatív gyakorisága az adott osztás X (al) adatsorában Az alacsonyabb GINI értékek jobbak. Gini == 0 tiszta osztály Eredetileg a társadalmi egyensúlyhiányt méri

Osztályozási fa (döntés) Edzési adatok Obj x 1 xy X 1 0,14 1,6 3 X 3,7 1,4 1 X 3,4 0,6 XN 0,15 0,87 3 x 0 4 SPLIT (kapzsi): MinGINI = RealMAX Minden dimenzióhoz d = x 1 x val = min (d 1 d N-1): max (d 1 d N-1 felosztás val d_i és val d_i + 1 részhalmaz értéke = a GINI kiszámítása részhalmaz értékeinek többsége. Ha kevesebb, mint MinGINI, tárolja a véget Vége Használja a dimenzió és val, amelyek MinGINI-hez vezetnek x 1

Osztályozási fa (döntés) Edzési adatok Obj x 1 x y X 1 0,14 1,3 3 X 3,7 1,4 3 X 3 1,7 0,7 X 4 0,5 1,6 3 x 1 0 4 x 1 X 5 1,5. X 6 0,7 0,3 1 X 7,4 1,8 1 X 8,7 0,87 1

Edzési adatok Obj x 1 x y X 1 0,14 1,3 3 X 3,7 1,4 3 X 3 1,7 0,7 X 4 0,5 1,6 3 X 5 1,5. X 6 0,7 0,3 1 X 7,4 1,8 1 X 8,7 0,87 1 Osztályozási fa (döntés) x 1 0 Felosztás x 1