Hiányzó adatok - okok, azonosítás és hozzárendelés - ThinkR - tanúsítás; Kiképzés

De hol vannak? Most nem igazán arról van szó, hogy hová mentek, hanem arról, hogyan cseréljék le őket. Pályafutásunk során mindannyian megtapasztaltuk, hogy megtörtük a fejünket, hogy tudjuk, hogyan fogjuk tudni kihasználni ezeket a hiányzó értékekkel tarkított adatokat, mert tudjuk, hogy az adataink minősége az egyik legfontosabb kulcs a vezetéshez egy adatprojekt.
Az első tennivaló a számunkra ismeretlen vagy ismeretlen adatok kezelésénél az, hogy megnézzük a fejét: összefoglaló és néhány grafikonok később (lásd a csapdáknak szentelt cikket, hogy elkerülje az adatok megtekintését: https://thinkr.fr/les-pieges-de-la-representation-de-donnees/), már egyértelműbb elképzelésünk van Az előttünk álló takarítási munkálatok.
Egy másik függvény, amely hasznos lehet az első elképzeléshez az adatainkról, és amely megadja a változónkénti hiányzó értékek számát: a csomag skim () vagy a csomag glimpse () függvénye:
| Név | írisz.miss |
| Sorok száma | 150 |
| Oszlopok száma | 5. |
| _______________________ | |
| Oszloptípus gyakorisága: | |
| tényező | 1 |
| numerikus | 4 |
| ________________________ | |
| Csoportos változók | Egyik sem |
Változó típus: faktor
| Faj | 33 | 0,78 | HAMIS | 3 | ver: 40, vir: 40, készlet: 37 |
Változó típusa: numerikus
| Sepal.Hossz | 20 | 0,87 | 5.82 | 0,83 | 4.4 | 5.1 | 5.75 | 6.4 | 7.9 | ▇▇▇▃ |
| Sepal.Szélesség | 32 | 0,79 | 3.08 | 0,42 | 2.2 | 2.8 | 3.00 | 3.3 | 4.4 | ▃▇▆▂ |
| Szirom. Hossz | 30 | 0,80 | 3.81 | 1.74 | 1.0 | 1.6 | 4.45 | 5.1 | 6.7 | ▇▅▇▃ |
| Szirom. Szélesség | 35 | 0,77 | 1.14 | 0,76 | 0.1 | 0,3 | 1.30 | 1.8 | 2.5 | ▇▂▆▅▃ |
De vigyázz! Mielőtt fejest merülnénk a különböző imputációs módszerek tanulmányozásában, ismerni kell azonosítani hiányzó adatok. Valójában nem mindig egyértelmű „NA” valósítja meg őket. Hasznos megérteni is az okok.
Miért vannak hiányzó adataim? ?
Mivel még nem a lehető legjobb világokban élünk (nem viccelünk!), sok tényező az adatok jellegétől és eredetétől függően figyelembe vehető. A hiányzó adatokat a hiányzásukhoz vezető mechanizmus szerint osztályozzuk:
- MCAR: Teljesen véletlenszerűen hiányzik: Annak a valószínűsége, hogy az adatok hiányoznak egy változóról, független más változóktól, például az adatok 10% -át tartalmazó lemez elvesztésétől, a vérvizsgálati cső leejtésétől ...
- MAR: Hiányzik véletlenszerűen: Annak a valószínűsége, hogy az adatok hiányoznak egy változóról, a többi megfigyelt változótól függ, de nem a kérdéses változótól. Például a súly mérése függ az életkortól (azaz a felnőttek súlya kisebb, mint a gyermekeké).
- MNAR: Hiányzik nem véletlenszerűen: Annak a valószínűsége, hogy az adatok hiányoznak egy változóból, a nem figyelt értéktől függ. Ez a példa azokra a magas jövedelmű emberekre, akik kevesebbet válaszolnak a fizetésükre, vagy HIV-pozitív betegekre, akik kevésbé válaszolnak a HIV-pozitív státusz kérdésére.
Hiányzó adatok, tudja, hogyan ismerheti fel őket
Az "NA" az R-ben hiányzó adatok szimbóluma, hasonlóan sok más nyelvhez (ne tévessze össze azt a "NaN" -nel, ami azt jelenti, hogy "nem szám", ami például nulla osztással jelenhet meg). De a hiányzó adatok nem mindig kerülnek NA-ba. Az alábbiakban felsoroljuk azokat az eseteket, amelyekkel találkozhatunk:
- A legegyszerűbben egy üres karaktert vagy egy karakterlánc típusú változók szóközét lehet azonosítani. Lehetséges az is, hogy "nincs adat".
- Ugyanazon típusú esetben, de a numerikus változók esetében az ember rendszeresen megtalálja a "999" számot és más önkéntesen következetlen számokat.
- A kiugró értékekből hiányoznak az értékek is
- Idősorokban több eset:
- Az utolsó megfigyelést addig ismételjük, amíg új adatokat nem észlelünk
- A teljes szekvenciák megismétlődnek: előző nap/hét/hónap
- 0 helyett NA vagy néha más alacsony állandó érték
A fent említett esetek egy részében, különösen a szekvenciák ismétlésében, abban a helyzetben vagyunk, hogy az adatokat már egy harmadik fél feldolgozta, így azok nem hiányoztak. Ezek felderítése valódi kihívást jelenthet, mert az a priori alkalmazott helyettesítési módszer nem biztos, hogy a legmegfelelőbb (a hiányzó értéket nullával helyettesíteni, ha ez egy olyan változó, amelynek értékei mindig 100 és 150 között vannak, nem igazán tekinthető jónak ötlet). Nem szabad megfeledkeznünk arról, hogy minőségi adatok nélkül (és ezért a hiányzó adatok kezelésére alkalmas módszer nélkül) lehetetlen értelmezni elemzéseinket.
A hiányzó adatok megjelenítése
„Vizualizáljon valamit, ami nem létezik… (de mit dohányzott?)” Gondolni fogja ... Valójában sok olyan R csomag létezik, amelyeknek funkciói vannak a hiányzó adatok grafikus ábrázolására - szóval nem, ez nem egy őrült ötlet. Az ötlet az, hogy megértsük hiányzó adatainkat, meghatározzuk a mintákat, ha vannak ilyenek.