A kis minta paradoxona

A csokoládé valószínűleg nem okoz fogyást

Valamikor ezelőtt egy látszólag komoly tanulmányt mutattak be a csokoládé előnyeiről azok számára, akik fogyni akarnak. A médiumok szerte a világon. De most, május végén egy előre nem látható visszapattanásnak lehetünk tanúi: a nyilvánvalóan tudományos cikk szerzője mindent elismer. Ez egy álhír volt, amelynek célja annak bemutatása, hogy a mainstream médiát milyen könnyen lehet becsapni.

Ebben a bejegyzésben a szerző, John "Bohannon" részletesen elmagyarázza, hogyan hajtott végre egy valódi tanulmányt - nagyon rosszul, de szándékosan -, amelyet aztán sikerült egy ragadozó folyóiratba illesztenie. A kívánt eredmények elérésének technikái közül (azaz a csokoládé jót tesz az étrendnek) a szerző azt mondja, hogy valójában sok nyomot kiszámított. Ez valóban hatékony megtévesztő eljárás, mert minden új mérés és minden új statisztikai teszt növeli annak valószínűségét, hogy legalább egy hamis pozitív legyen.

De John "Bohannon" hozzáteszi ezt:

De még ha arra is ügyeltünk volna, hogy ne szaporítsuk a teszteket, vizsgálatunkat a kis alanyszám okozta, ami felerősíti az ellenőrizetlen tényezők hatását.

Úgy tűnik tehát, hogy a szerző azt mondja nekünk, hogy az elején egy kis minta kiválasztásával növelte a hamis pozitív valószínűségét. Ez azonban hamis, és szembetűnő példa arra, amit a kis minta tévedésének neveztem.

Számos internet-felhasználó és kolléga rámutatott azonban arra, hogy a "kis minta tévedés" feljelentése megkérdőjelezhető volt. Az előző eset valóban a tévedés példája, de a dolgokat másként is értelmezhetjük. Ennek a bejegyzésnek a célja annak tisztázása, hogy mi a kis minta tévedése, és miért van mégis oka a kis mintákon talált eredményekkel szembeni óvatosságra - mindez a felmerülő kérdésen múlik.

A hamis pozitív arány a minta méretével nem változik

A statisztikákban általában az első fajta 5% -os kockázatát alkalmazzuk, ami azt jelenti, hogy ha nincs hatás (ha a csokoládé például nem befolyásolja a súlyt), akkor 5% valószínűséggel tévesen következtethetünk arra, hogy egy hatás. Ez az 5% -os érték nem függ a minta nagyságától: nagyobb megfigyelt hatásra lesz szükség, ha a minta kisebb, de a hiba valószínűsége mindig 5%.

Képzelje el, hogy 100 lehetséges hatást tesztelünk, amelyek a valóságban nem léteznek. A minta nagyságától függetlenül 5 hamis pozitív eredményre kell számítani. Képzelje el, hogy 100 valós hatást tesztelünk. Tehát definíció szerint lehetetlen, hogy "hamis pozitív" legyen. Ez lehetővé teszi számunkra, hogy ezt általánosabban megállapítsuk: amikor egy sor vizsgálatot végezünk, akkor a hamis pozitív eredmények száma nem függ a minták méretétől. John "Bohannon" érvelése tehát hamis: egy kis minta kiválasztásával ez nem növeli a hamis pozitív megtalálásának valószínűségét.

Minél nagyobb a minta, annál nagyobb az erőnk

Míg a minta nagysága nincs hatással a hamis pozitív valószínűségére, a tényleges hatás észlelésének valószínűségét befolyásolja. Kis mintákkal lehetetlen kimutatni a gyenge hatásokat. Ez az oka annak, hogy a genetikában gyakran használnak gigantikus mintákat: a hatások minimálisak, máshogy nem találnánk semmit.

Képzelje el a következő helyzetet: 200 lehetséges hatást tesztelünk. Valójában 100 valós, és 100 nem létezik.

A nem létező hatásoknak megfelelő 100 teszten arra a következtetésre jutunk (tévesen), hogy 5 esetben van hatás, hogy a minták kicsiek vagy nagyok. A valós hatásoknak megfelelő 100 vizsgálat közül 80 esetben következtetünk (például) a hatásra, ha a minták nagyok, de 20 esetben csak akkor, ha a minták kicsi.