A kék szemű marslakók száma csökken

Tegyük fel, hogy tesztelni akarjuk azt a hipotézist, hogy a kék szemű marslakók aránya a 20. század folyamán csökkent. Sajnos a marsi lakosság nagyon ingadozik, ezért minden évtizedben nagy a különbség a teljes népességben [Frissítés: Tekintsük állandónak a marsi lakosságot, egymilliárd marslakónál. A következő adatok véletlenszerű minták minden évre. Az adatkészlet (amely íráskor áll össze) a következőképpen nézhet ki:

Azoknak az éveknek az elemzése, amelyekben a marsi lakosság 100 évnél fiatalabb, nyilvánvalóan nem olyan statisztikailag értelmes, mint egy 10 000 feletti népesség esetében, mivel ez utóbbi esetben nagyobb az adatkészletünk. Ennek ellenére az összes rendelkezésre álló adatot fel szeretnénk használni hipotézisünk tesztelésére egy hagyományos 95% -os szignifikancia szint mellett.

Hogyan tovább? Súlyozzuk az egyes évek fontosságát az akkori minta nagysága szerint?

Egyéb változások az aggodalom kezelésére: Ez arról szól, hogy az egyes adatsorokat megfelelően súlyozzuk, figyelembe véve, hogy ezek annyira különböző méretűek. Nincs minta elmozdulás, mivel az adatokat véletlenszerűen választják meg.

0 'role = "prezentáció"> 0 1' role = "prezentáció"> 1

n 'role = "prezentáció"> n p' role = "prezentáció"> p k 'role = "prezentáció"> k

Minden évtizedben tudjuk, és ezeket az adatok adják meg - de tudjuk. Megbecsülhetjük azt feltételezve, hogy a megfelelő logaritmikus esélyek lineárisan változnak évről évre (legalábbis jó közelítéssel). Ez azt jelenti, hogy feltételezzük, hogy vannak számok, és így n 'role = "prezentáció"> nk' role = "prezentáció"> kp 'role = "prezentáció"> pp' role = "prezentáció"> p β 0 'role = "prezentáció"> β 0 β 1' role = "prezentáció"> β 1

Ha ezt bedugja az (1) -be, akkor lehetősége van egy adott év során nézni, ahogy k 'role = "prezentáció"> k n' role = "prezentáció"> n t 'role = "prezentáció"> t

Feltételezve, hogy a mintákat az évek során egymástól függetlenül, stb., Valamint a megfelelő és kék szemű alanyoktól kapják, mivel az adatok valószínűsége az egyes eredmények valószínűségének szorzata. Ez a termék (definíció szerint) a valószínűsége. Becsülhetjük meg ezeket a paramétereket, mint olyan értékeket, amelyek maximalizálják a valószínűséget; Ennek megfelelően maximalizálják a log 1 valószínűséget t 1, t 2, 'role = "presentation"> t 1, t 2, ni' role = "prezentáció"> niki 'role = "prezentáció"> ki (β 0, β 1) 'role = "prezentáció"> (β 0, β 1) (β ^ 0, β ^ 1)' role = "prezentáció"> (β ^ 0, β ^ 1)

megszerzett valahonnan . (2) 'role = "prezentáció"> (2)

(Ez nagymértékben leegyszerűsödik, ha logaritmusszabályokat használunk. Ez az oka annak, hogy az idő-arány viszonyt log-szorzóként fejezzük ki. Ha minden arány nagyjából a és között van, akkor kevés a minőségi különbség a valószínűségek vagy a napló esélye: A kiigazított görbe lineáris vagy majdnem lineáris.) 0,2 'role = "prezentáció"> 0,2 0,8' role = "prezentáció"> 0,8 p 'role = "prezentáció"> p

(3) 'role = "presentation"> (3) binomiálisan általánosított lineáris modell. Számszerűsítéssel kell beállítani. A (a bejegyzés végén látható) eljárás megadja a megoldást Λ 'role = "presentation"> Λ glm R

Az ezen az ábrán szereplő adatokat szeletekkel ábrázoljuk, amelyek területe arányos a mintanagysággal. A GLM illeszkedés görbe vonalú. Összehasonlításképpen, az a sor, amelyet kapnánk, ha a kérdésben szereplő adatokat egy közönséges legkisebb négyzet alakú megoldónak adnánk ki, az összehasonlításhoz szürkén jelenik meg. Az akkori kis minta nagysága ellenére mindkét rohamot befolyásolja a korábbi évek nagyobb aránya. A GLM illeszkedés azonban jobban megközelítheti az arányokat az 1970-ben és 1980-ban kapott legnagyobb mintákban. A pontozott kék vonal az alábbiakban kerül leírásra. (Év, Arány) 'role = "prezentáció"> (Év, Arány)

Másodfokú kifejezés hozzáadásával tesztelhetjük az illeszkedés jóságát. Nagyban javítja a GLM illeszkedését (bár a vizuális különbség nem nagy), és bizonyítékot szolgáltat arra, hogy ez a modell nem írja le jól az eredmények eltérését. Egy pillantás a grafikonra azt mutatja, hogy az eredmény 1990-ben jóval alacsonyabb volt, mint a modell előre jelezte.

Alternatív, de összehasonlítható megközelítés az, hogy minden évre külön-külön becsüljük meg, esetleg (bár más becslések is lehetségesek). Ezen becslések logaritmikus szorzók lineáris regressziója az évhez viszonyítva, a mintanagysággal vagy a súlyozott legkisebb négyzetek regressziójával súlyozva p 'role = "presentation"> pti' role = "presentation"> tiki/ni 'role = "present" > ki/nini 'role = "prezentáció"> ni

Ezen becslések szokásos hibái vagy, jelezve, hogy a WLS-becslések lényegesen nem különböznek a binomiális GLM-től. (A GLM standard hibák azonban lényegesen kisebbek: "tudja", hogy ezek a mintaméretek meglehetősen nagyok, míg a lineáris regresszió semmit sem tud a mintaméretekről: tíz külön megfigyelésből csak egy szekvencia van.) Vegye figyelembe, hogy Lehetséges, hogy nem áll rendelkezésre alternatíva, ha a valószínűségek másik becslését alkalmazzák (vagy ha nincsenek értékei vagy értéke). 15.55 'role = "prezentáció"> 15.55 0.00787' role = "prezentáció"> 0.00787 ki = ni 'role = "prezentáció"> ki = niki = 0' role = "prezentáció"> ki = 0 0 'role = "prezentáció" > 0 1 'role = "prezentáció"> 1

Végül megtehetnénk a nyers valószínűségi becslések évhez viszonyított súlyozott legkisebb négyzetes regresszióját, amelyet fordítottan súlyoz a minta varianciájának becslése. A binomiális eloszlás szórása változó, ismét arányként kifejezve. Ezt egy minta alapján becsülhetjük meg: k/n 'role = "prezentáció"> k/n (n, p)' role = "prezentáció"> (n, p) X 'role = "prezentáció"> XX/n' role = "prezentáció"> X/np (1 - p)/n 'role = "prezentáció"> p (1 - p)/n

Az eredmény pontozott kék vonalként jelenik meg az ábrán. Ebben az esetben úgy tűnik, hogy kompromisszum van a GLM és az OLS kiigazítások között.

A következő R kód elvégezte az elemzéseket és elkészítette az ábrát.