Christian Burkhart

2018. augusztus 3

Statisztikai módszerek vannak a kérdések megválaszolására. Az X gyógyszer jobb, mint az Y gyógyszer? Vagy jobb a P diéta, mint az S diéta? Mindenki ismeri az ilyen kérdéseket, gyakran találkoznak velük a mindennapi beszélgetések során, és még nem mozognak olyan területeken, ahol a statisztikai laikusok szívesebben hagynák el a termet, amint az előadó olyan körülményeket vet körül, mint statisztikai paraméterek, mintaeloszlás vagy szórás.

Az ilyen különbségek megválaszolásához (X jobb, mint Y) statisztikai módszerekre van szükség. Ezeknek az eljárásoknak egyáltalán nem kell bonyolultnak lenniük. Képzelje el, hogy szeretné tudni, hogy az 1. diéta, a 2. vagy a 3. diéta jobb-e a fogyáshoz. Ön 60 embert 3 csoportra oszt (egyenként 20 főt). Az 1. csoportnak az 1. diétát, a 2. csoportnak a 2. étrendet és a 3. csoportnak a 3. diétát kell átesnie. Minden csoport pontosan 6 hétig. A kísérlet megkezdése előtt mindegyiket újra lemérik. A kísérlet végén mindenkinek újra mérlegre kell állnia. Most melyik étrend a legjobb? A legegyszerűbb válasz az a csoport lenne, amelyik a legnagyobb súlyt vesztette. Nézzük meg.

R, R-Studio és a Tidyverse

Azonnal végigviszem az összes elemzést R-vel. R egy programozási nyelv, amelyet statisztikai értékelésekhez írtak. Tehát ha részt akarsz venni, szükséged van R-re és R-Stúdióra. A példa adatkészletét erről a webhelyről vesszük (töltse le a diéta témájáról a csv fájlt). Ha még nem tette meg, először telepítse a tidyverse csomagot és a gghighlight csomagot:

Ezután betölthetjük a csomagokat, és beolvashatjuk az adatrekordba:

Ha még nem ismeri az R-t, az adatok elolvasása előtt győződjön meg róla, hogy meghatározta a megfelelő munkakönyvtárat. A legegyszerűbb módszer a következő parancs beírása a konzolba, és kiválasztani azt a mappát, amelyben az stcp-Rdataset-Diet.csv fájl található.

Az adatokat most be kell tölteni, és pillantással megtekintheti az adatokat:

Most csak két változóval foglalkozunk: a testsúlyhetekkel és az étrenddel. A diéta nem más, mint egy változó, amely az 1., 2. és 3. számot tartalmazza. Az 1 jelentése az 1. diéta és így tovább. A súly 6 hét az emberek súlyát mutatja 6 hét után.

Érdekel azonban a súlykülönbség 6 hét után. Ehhez létrehozunk egy új változót:

a mutáció egy olyan funkció, amelyet új változók létrehozására használhatunk.

Most készen állunk arra, hogy megtudjuk, vajon a diéták különböző fokú sikerrel járnak-e.

A diéta okoz-e különbséget? A kérdés megválaszolásának egyszerű módja

Hogyan lehet a legkönnyebben ellenőrizni, hogy a csoportok különböznek-e egymástól? Összehasonlítjuk az átlagértékeket.

Leegyszerűsítve: összeadjuk az összes értéket, és ezt az összeget elosztjuk az értékek számával. Először keressük meg a három csoport átlagát.

Hmmmh, úgy tűnik, a 3. csoport vesztette el a legnagyobb súlyt. Tehát a 3. diéta a legjobb? Vagy, másképpen fogalmazva, mi a különbség az egyik étrend jobb, mint a másik? Vagy nem lehet egyszerűen az, hogy a különbségek véletlenszerű ingadozásoknak vannak kitéve? Gondoljon bele saját maga. Ha a 3. diéta átlaga -4 lenne, azt mondaná, hogy a diéta jobb, mint a másik? Mi lenne, ha az átlagérték -3,5 lenne? Észreveszi, hogy a döntés kissé önkényes. Általában szükségünk van egy határértékre annak megállapításához, hogy az étrend változtat-e. Ezt a határértéket más módszerekkel határozzuk meg.

Egy másik módszer a csoportok közötti különbségek meghatározására

Ahelyett, hogy megtudnánk az átlagot, hogy megtudjuk, különböznek-e a csoportok, megkérdezhetjük azt is, hogy ezek a különbségek véletlenszerű statisztikai ingadozásoknak vannak-e kitéve, vagy valójában nem valószínű, hogy 3 csoport ennyire különbözik egymástól. Egy kis példa, hogy megértsem, mit akarok ezzel mondani.

Példa egy kockára

Tegyük fel, hogy van egy 6 oldalú halálod. Szeretné tudni, hogy ez a kocka valóban azonos valószínűséggel mutat-e minden számot. Ez azt jelenti, hogy minden számnak (1/6 * 100) százalékos, azaz 16,67% -os valószínűséggel kell megjelennie. Ha azonban a kockát hatszor dobjuk meg, akkor nem valószínű, hogy minden szám pontosan egyszer jelenik meg. A számok előfordulása bizonyos statisztikai ingadozásoktól függ. Ha azonban 10 000-szer dobunk, akkor feltételezhetjük, hogy minden egyes szám körülbelül 16,67% -ban fordul elő.

Manipulálatlan kocka

Először egy nem manipulált tekercset görgetünk 10000-szor:

A set.seet (100) paranccsal ugyanazokat az eredményeket kapja, mint én. A TRUE azt jelenti, hogy van esélyünk minden alkalommal 1-től 6-ig dobni a számokat.

Milyen gyakran jelenjenek meg az egyes számok? Pontosan 1667-szer nagyjából. Mivel minden számnak egyenlő az esélye az előfordulásra, 10000-at osztunk 6-tal, és 1667-et kapunk (kerekítve). Hasonló értékeket kapunk vissza R-től:

Látjuk, hogy nem minden számot dobtak pontosan 1667-szer, de ezekre a statisztikai ingadozásokra számítani kell. Ha ezt a kísérletet milliószor hajtanánk végre, nem pedig 10 000-t, akkor majdnem pontosan ugyanazt a valószínűséget kapnánk minden kockára. A valódi kockák viszont nem tökéletesek. Még egy törött él is azt jelentheti, hogy egyes számokat nagyobb valószínűséggel dobnak el.

Kötélezett kocka

Mi történik most, ha a kockát manipulálták? Hogyan állapíthatjuk meg, hogy a számok előfordulásának különbségei nincsenek-e véletlenszerű statisztikai ingadozások alatt (mint a nem manipulált dobásoknál), de szisztematikusak-e? A kérdés megválaszolásához 1000-szer megismételjük a kísérletet. 1000-szer dobjuk meg a kockát 100-szor, és nézzük meg, milyen gyakran jelenik meg benne a 4-es szám. Statisztikailag azt kell feltételeznünk, hogy a négyes szám a legtöbbet 1667-szeresére fordul elő.

Ez a funkció bonyolultabb. Lépésenként:

1: 1000: Készítünk egy vektort, amelynek számai 1 és 1000 között vannak
map_dbl: Ezen számok 1-től 1000-ig mindegyikéhez futtatunk egy függvényt
minta (1: 6, 1000, IGAZ): 100-szor dobjuk a kockát
táblázat (.): Meg tudjuk jeleníteni a számok frekvenciáját ebben a 100 dobásban
.[nevek (.) == 4]: Megszámoljuk, hogy a 4-es szám milyen gyakran fordul elő ezekben a frekvenciákban
táblázat: Az 1000 kísérletből megszámoljuk, hogy az egyes kísérletekben milyen gyakran fordult elő a 4.

Most már megjeleníthetjük ezt a megoszlást:

Oké, látszólag 100 dobással nagyon valószínű, hogy 16-szor vagy 17-szer megkapja a 4-es számot. Rendkívül valószínűtlen a 4 27-es vagy akár 6-os szám megkapása, ha feltételezzük, hogy a kockát nem manipulálták.

Amit itt látsz, az egy valószínűségeloszlás. Az eloszlásból meg tudjuk állapítani, hogy egy esemény (a 4-es szám előfordulása 100 dobásnál) mennyire valószínű. Az általunk szimulált grafika alapján azt mondhatjuk, hogy egy kockát valószínűleg akkor manipuláltak, ha a 4 előfordul 27-szer.

Binomiális eloszlás

Az imént létrehozott valószínűség-eloszlással meghatározhatjuk, hogy a kockát manipulálták-e. Például, ha 100 dobásból csak hatszor kaptuk meg a 4-es számot, nagyon valószínűtlen, hogy a kockát megváltoztatták. És pontosan így szoktuk tesztelni a tudományos kérdéseket. Nem arra vagyunk kíváncsiak, hogy tudományos kérdésünk helytálló-e, inkább az, hogy valószínűtlen-e az eseményünk (a fogyókúrák közötti fogyási különbségek), ha nem fogadjuk el a különbségeket.

Nem kell ezeket a valószínűségeloszlásokat minden alkalommal szimulálnunk. Már kiszámolták őket. A kocka példához célszerű binomiális elosztást használni. Elvileg semmi más nem a valószínűségeloszlásunk. Binomiális eloszlással bizonyos valószínűséggel teszteljük az n esemény valószínűségét. Például: Mennyire valószínű, hogy 5 dobással 3-szor dobjuk a 4-es számot?

Most valószínűségi eloszlást binomiális eloszlásként ábrázolhatjuk:

Tehát mikor kezdjük azt hinni, hogy a kocka valószínűleg nem normális kocka (de manipulálták)? Korábban önkényesen határoztuk meg a határértéket. A tudósok nagyon hasonló dolgot tesznek.

Ha egy esemény valószínűsége a valószínűségeloszlás alapján kevesebb, mint 5%, akkor egy esemény nem valószínű.

Forgalmazásunkban ezek a következő események:

Tehát ha a 4-es számot 22-szer vagy többször dobjuk, akkor azt kell feltételeznünk, hogy ez nem egy normális kocka, hanem valószínűleg a kocka manipulációja. Ezután egy jelentős eseményről beszélünk.

Az F eloszlás

A binomiális eloszlással megvizsgáljuk, hogy bizonyos számú esemény valószínűleg vagy nem valószínű, hogy bekövetkezik. Az F-eloszlással teszteljük, hogy a két variancia közötti különbségek statisztikai ingadozásoknak vannak-e kitéve, vagy szisztematikusak-e. Ennek megértéséhez először meg kell értenünk, mit jelent a variancia.

Variancia

A variancia egy statisztikai mérőszám, amellyel megmutathatjuk, hogy egy változó mennyire változik. Például az emberek súlya változó. Vannak, akik nehézek, mások könnyűek. Számítsuk ki a képletet az alábbiak szerint:

Más szavakkal, hozzáadjuk az egyes súlyértékek négyzetes eltéréseit a minta átlagértékéhez, és ezt az összeget elosztjuk n - 1-vel. Mindig nagyon praktikus ilyen matematikai ötleteket grafikusan megjeleníteni.

A vízszintes vonal a változó mintánk átlagát jelenti, minden pont 6 hét után az egyes emberek súlya.

Ebben a példában a variancia nem más, mint ezen négyzetek átlagos területe elosztva a négyzetek számával - 1. Eddig nyitva hagytuk, ezért nem egyszerűen osztjuk ezeket a négyzeteket a négyzetek számával, hanem a négyzetek számával mínusz 1 Ennek oka az, hogy hajlamosak vagyunk alábecsülni a populáció varianciáját, amikor csak néhány embert vonunk le egy mintából (itt a kísérletünkben részt vevők száma). Ezt a korrekciót Bessel-korrekciónak is nevezik.

A változó súlyú 6 hét változása grafikusan a következőképpen néz ki:

Ismét csak el kell osztanunk ezen négyzetek területének összegét az mínusz 1 négyzetek számával, és meg kell kapni a varianciát.

Minél kisebb ezen négyzetek területe, annál kisebb a változó szórása. Más szavakkal: minél kevésbé térnek el az egyes értékek a változó átlagértékétől, annál kisebb a szórás.

R-ben ezt a varianciát a következőképpen számíthatjuk ki:

Mindkét parancs 79,64677 varianciát eredményez.

Variancia hányadosa

Összehasonlíthatjuk a varianciákat egymással, ha két variancia hányadosát képezzük. Például összehasonlíthatnánk az első étrendcsoport varianciáját a második étrendcsoport varianciájával.

Ha az érték nagyobb, mint 1, akkor az első csoport varianciája nagyobb lenne, mint a második csoport varianciája. Ha az érték kisebb, mint 1, akkor az első csoport szórása kisebb, mint a második csoport varianciája.

Az F-érték egy ilyen hányadosból származik. De ahelyett, hogy önkényesen összehasonlítanánk a varianciákat egy hányadossal, általában összehasonlítunk egy szisztematikus és egy nem szisztematikus varianciát. A szisztematikus eltérés általában olyan manipulációk révén következik be, amelyeket mi magunk is végrehajtunk. Például 3 étrendet rendeltünk a 60 emberhez. Ez a feladat szisztematikus volt. A nem szisztematikus variancia az adatok által adott variancia. Például az összes adat szórása a változó átlaga körül.

F érték

Az F érték a három étrendcsoportunk (SSW) és az adataink szisztematikus eltéréseinek hányada (SSW).

A négyzetek összege (SSB)

A csoportok közötti varianciát úgy számoljuk ki, hogy kivonjuk a csoportok átlagát a változó súlycsökkenés teljes átlagából, felnégyszerezzük és kiszámoljuk az esetek számának szorzatával.

A négyzeteket nehéz átlátni, mert a méretarány annyira különbözik. A középen lévő vonal a változó átlagértékét jelzi, a pontok az egyes csoportok átlagértékei. Annyi pont van, ahány ember van minden csoportban. Ha húzzuk a négyzeteket, ez így néz ki:

Ismét össze kell adnunk ezeket a négyzeteket.

A négyzetek összege belül (SSW)

A csoporton belüli variancia nem más, mint a csoporton belüli variancia összege.

F érték

Eddig csak összeadtuk a négyzeteket, de még nem számoltunk ki varianciát. Ehhez el kell osztanunk az SSB-t és az SSW-t egy nevezővel:

Átlagos négyzetek között (MSB): SSB/(k - 1). K a csoportok száma, itt 2.
Átlagos négyzetek belül (MSW): SSW/(n - k). N az összes csoportba tartozó emberek száma, itt 78

Az F-érték most az MSB és az MSW közötti hányadosból képződik.

Ha úgy gondolja, hogy jó lennék, munkát tudnék végezni az Ön számára, vagy a csapatába akarna küldeni, küldjön egy üzenetet. Olyan környezetben boldogulok, amely törődik a hallgatók tanulásával, és jól megtervezett online tanulási tapasztalatokat vagy adatmegjelenítéseket akar nyújtani.

Rólam

Oktatási tervező vagyok, alapos ismeretekkel rendelkezik a webfejlesztés, az online tanulás és az adatok vizualizálása terén.

Kapcsolatba lépni

Ne szégyelljen velem kapcsolatba lépni. Alig várom, hogy válaszolhassak rád.