Statisztika és valószínűségelmélet - PDF ingyenes letöltés
Statisztika és valószínűségelmélet Dr. Jochen Koehler 1

A mai előadás tartalma Statisztika és valószínűségelmélet Az előző előadás összefoglalása A becslés és modellezés áttekintése Az fit jósági teszt Az illeszkedés jóságának Kolmogorov Smirnov-tesztje Modell-összehasonlítások
Az előző előadás összefoglalása Megfontoltuk annak lehetőségét, hogy megfigyelések/adatok alapján megbecsülhessük az eloszlás paramétereit. Mit tanultunk? Hogy egy eloszlás paraméterei megbecsülhetők pl. der: Pillanatok módszere MoM A legnagyobb valószínűség MLM módszere 3
Az előző előadás összefoglalása A pillanatok módszere (MoM) pontbecslés A MoM alapelve: A paramétereket úgy becsüljük meg, hogy az analitikusan kiszámított momentumokat megegyezzük a mintamomentumokkal. m 1 n = xˆ 1 ini = 1 1 x fx (xμ, σ) λ = dx m 1 n = xˆ ini = 1 x fx (xμ, σ) λ = dx Ez k egyenletekhez vezet, amelyeket k esetén kell megoldani Becsülje meg a paramétereket. 4
Az előző előadás összefoglalása A paraméterek és eloszlásuk maximális valószínűségének (MLM) becslésének módszere Az MLM alapelve: A paramétereket úgy becsüljük meg, hogy maximalizáljuk annak valószínűségét, hogy a paraméterek a megfigyeléseket/adatokat reprezentálják. n L (θ xˆ) = f (ˆ X xi θ) i = 1 l (θ x) = log (f (ˆ X xi θ)) perc (l (θ xˆ)) θ ni = 1 μ = Θ (1 1 C ΘΘ = HH ij θ, θ. Θ l (θxˆ) T n) = θ = θ θ i θ j 5
Becslés és modellfejlesztés áttekintése Különböző típusú információkat használnak a mérnöki modellek kidolgozásakor. Szubjektív információk Gyakori információk Szubjektív valószínűségi cikk Fizikai megértés Tapasztalat Értékelési képesség Eloszlási család Gyakori adatok Eloszlási paraméterek Valószínűségi modell Minta statisztikák Megbízhatósági intervallumok Statisztikai szignifikancia Pillanatok módszere A maximális valószínűség módszere 6
Tegyük fel, hogy egy bizonytalan esemény bizonytalanságának modellezéséhez egy adott elosztási függvényt választottunk. Adatfizikai törvények eloszlási család f x (x) nyomószilárdság konkrét adateloszlási paraméterek μ, σ x Most statisztikai tesztekkel szeretnénk ellenőrizni az eloszlásunk választását. 7.
Két különböző esetet veszünk figyelembe: 1. ellenőrzés: Diszkrét eloszlásfüggvények p x (x) CHI négyzet (χ) x teszt: Folyamatos eloszlásfüggvények Kolmogorov Smirnov teszt f x (x) x 8
Az illeszkedés jóságának CHI négyzet próbája E mögött az az elképzelés áll, hogy a várható és a megfigyelt adateloszlás közötti ε j különbségeknek kicsinek kell lenniük, ha a kiválasztott elosztási család jól leírhatja a mintát. 10 9 8 ε j ε i Megfigyelések 7 6 5 4 3 1 0 0 5 5 30 30 35 35 Megfigyelések hisztogramja A várható megfigyelések szerinti hisztogram a kiválasztott eloszlás és paraméterei szerint nyomószilárdságú beton (MPa) 9
A CHI négyzetes illeszkedési jóság teszt Mint már tudjuk, egy diszkrét kumulatív valószínűségi eloszlásfüggvényt a következőképpen adunk meg: i 1 = j = 1 Px () px () i j valószínűségi sűrűségfüggvény kumulatív valószínűségi eloszlásfüggvény 10
Az illeszkedés jóságának CHI négyzet próbája Legyen n egy diszkrét X véletlen változó megfigyelésének száma. X = xi, azaz N i megfigyelésének száma binomiálisan eloszlott véletlen változó, a következő várakozással és szórással: [] [] EN = npx () = N ii pi, Var N = np (x) (1 p (x)) = N (1 p (x)) iii pi, i Egy bizonyos értékű megfigyelések várható száma 11
Az illeszkedés jóságának CHI négyzetes próbája Legyen n egy diszkrét X véletlen változó megfigyelésének száma. X = xi, azaz N i megfigyelésének száma binomiálisan eloszlott véletlen változó, a következő várható értékkel és szórással: [] [] EN = npx () = N ii pi, Var N = np (x) (1 p (x)) = N (1 p (x)) iii pi, i Egy bizonyos értékű megfigyelések várható száma Ha a feltételezett modell helyes és n elég nagy, akkor a központi határtétel szerint az ε i különbség normál eloszlású. ε = i N N oi, pi, pi, N (1 p (x)) i Egy bizonyos értékű megfigyelt megfigyelések száma 1
Az illeszkedés jóságának CHI négyzet tesztje Statisztika és valószínűségszámítás Ha a megfigyelt és a várható megfigyelések számának négyzetbeli különbségeit összegezzük, akkor kapjuk: ε (NN) kk oi, pi, = εi = i = 1 i = 1 Npi, p xi ( 1 ()) CHI négyzet elosztva k 1 szabadságfokkal ε ε 1 megfigyelés száma 10 9 8 7 6 5 4 3 1 0 ε mk (Noi, Npi,) = N i = 1 pi, 0 1 3 ε 3 ε 4 hisztogram megfigyelésekből A várható megfigyelések hisztogramja A havi balesetek száma 13
Az illeszkedés jóságának CHI négyzetes próbája Most az α szignifikancia szinten teszteljük, hogy az összes megfigyelt négyzetbeli különbség összessége elfogadható-e, vagyis fel van állítva az a nullhipotézis H 0, hogy a kiválasztott eloszlásfüggvény a megfigyelt mintát képviseli. Az eljárási szabály ekkor P ε (m) Δ = α-t olvashatja le. Az alternatív H 1 hipotézis sokkal kevésbé informatív, mert a kiválasztott eloszláson kívül minden más eloszlást elfogad. Δ α χ 1 v = k j az eloszlás törésértéke szabadságfokokkal. 14-én
Az illesztés minőségének CHI négyzetes próbája A következő példát vesszük figyelembe: A beton nyomószilárdságának 0 megfigyeléséhez eloszlásfüggvényként feltételezzük a normális eloszlást. Az átlagérték és a szórás 33 Mpa 5 Mpa. A paramétereket a rendelkezésre álló megfigyelések alapján nem becsüljük meg. A normális eloszlás folyamatos eloszlás. De könnyen diszkrecitálható! 15-én
Az illeszkedés jóságának CHI négyzet próbája A kiválasztott eloszlási függvény sűrűségfüggvényét diszkretizáljuk: Kiválasztott eloszlási függvény valószínűségi sűrűsége 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,0 0,01 0 0 10 0 30 40 50 60 Beton nyomószilárdsága (MPa) 16
Az illeszkedés jóságának CHI négyzet próbája A kiválasztott elosztási függvény sűrűségfüggvénye diszkretizált: Valószínűségi sűrűség 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,0 0,01 Kiválasztott eloszlási függvény 0 0 10 0 30 40 50 60 Nyomószilárdságú beton (MPa) intervallum 0 5: Φ Φ) 0 0,055 1. 10 kísérlet összesen 5 33 33 0 () (= = 5 5 17
Az illeszkedés jóságának CHI négyzet próbája A kiválasztott eloszlásfüggvény sűrűségfüggvényét diszkretizáljuk: Valószínűségi sűrűség Kiválasztott eloszlási függvény 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,0 0,01 0 0 10 0 30 40 50 60 Nyomószilárdságú beton (MPa) Megfigyelések száma 9 8 7 6 5 4 3 1 0 Várható hisztogram 0 5 5 30 30 35 35 Nyomószilárdságú beton (MPa) Intervallum 0 5: Φ Φ) 0 0,055 1. 10 Vizsgálatok teljes száma 5 33 33 0 () (= = 5 5 18
Az illeszkedés jóságának CHI négyzet próbája A megfigyelt és várható hisztogramok most összehasonlíthatók. 10 Megfigyelések száma 9 8 7 6 5 4 3 1 0 0 5 5 30 30 35 35 Nyomószilárdságú beton (MPa) A hisztogram a megfigyelésekből A hisztogram a várható megfigyelésekből 19
Az illeszkedés jóságának CHI négyzet próbája A megfigyelt és várható hisztogramok most összehasonlíthatók. Az alsó területen található kevés minta miatt a két alsó intervallum egyesül. Megfigyelések száma 10 9 8 7 6 5 4 3 1 0 0 5 5 30 30 35 35 Nyomószilárdságú beton (MPa) Megfigyelések hisztogramja Megfigyelések száma 10 Várható 1 megfigyelés hisztogramja 0 9 8 7 6 5 4 3 0 30 30 35 35 Nyomószilárdságú beton (MPa) 0
Az illesztési számítások jóságának CHI négyzetes tesztje, például statisztikák és valószínűségi számítások intervallum xj (MPa) Megfigyelések száma N o, j Várható valószínűségek Várható megfigyelések száma N p, j, minta statisztikák 0 30 5 0,96671 5,933415 0,14464 30 35 9 0,381169 7,65443 0,36537 35 6 0,344578 6,41155 0,0649 Összeg 0,40987 ε NN k (o, jp, j) m = j = 1 N p, j 5% -os szignifikancia szinten a CHI négyzet eloszlását kapjuk N = 3 1 = a táblázat szabadságának fokaival: Δ = 5,99. Mivel a 0,40987 kisebb, mint 5,99, a H 0 nullhipotézist nem lehet elutasítani. 1
Az illeszkedés jóságának CHI négyzet próbája Ha a kiválasztott eloszlás egy vagy több (m) paraméterét meghatároztuk ugyanazokból az adatokból, amelyeket a teszt során használtunk, akkor a szabadság fokainak számát ennek megfelelően csökkenteni kell: v = k 1 j Feltéve, hogy a variancia az adatok alapján lett meghatározva, de nem az átlag, n = 3-1-1 = 1 szabadságfokot kapunk.
Statisztika és valószínűség Az illeszkedés jóságának CHI négyzetes próbája Ha normál eloszlást feltételezünk a következő paraméterekkel: μ = 33,00 σ = 4,05, a következő eredményt kapjuk: Intervall xj (MPa) Megfigyelések száma N o, j Várható valószínűségek p (xj) Várható Megfigyelések száma N p, j =, 0p (xj) minta statisztika 0 30 5 0,7453 5,485061 0,04896 30 35 9 0,381169 7,63373 0,48591 35 6 0,344578 6,891566 0,11534 összeg 0,40689 5% -os szignifikancia szinten megkapjuk a CHI négyzet eloszlását N = 3 1 1 = 1 szabadságfok az asztaltól: Δ = 3,84. Mivel a 0,40689 kisebb, mint 3,84, a H 0 nullhipotézist nem lehet elutasítani. 3
A Kolmogorov Smirnov illeszkedési teszt jósága A Kolmogorov Smirnov teszt ötlete a következő: Ha a megfigyeléseknél figyelembe vesszük a választott eloszlás kumulatív valószínűségeloszlási függvényét, akkor a megfigyelt és a várható kumulatív valószínűségi eloszlásfüggvény közötti maximális különbségnek kicsinek kell lennie. ε max ε max