Fájlok tisztítása egyedi, transzverzális konzisztenciára törekvő adatok esetén
Kremp Erzsébet. Fájlok tisztítása egyedi adatok esetén: keresse meg a keresztirányú konzisztenciát. In: Gazdaság és előrejelzés, 119. szám, 1995-3. pp. 171-193.

Fájlok tisztítása az egyes adatokhoz
Keressen transzverzális koherenciát
A több éven át tartó egyedi adatfájl, amelyet paneladatoknak is neveznek, három dimenzióval jellemezhető: az egyedek száma, az információk száma, vagyis az ezen személyek jellemzését lehetővé tevő változók, és az évek száma, amelyekre ez információ áll rendelkezésre. E három jellemző mellett egy negyedik is figyelembe vehető, amelyet nehezebb mérni, ami ezen információk minősége.
A minta tisztításának problémája a Banque de France vállalataira vonatkozó számviteli adatbázisok összehasonlításával összefüggésben merült fel az Insee egységes üzleti statisztikai rendszerének (Susa) kimerítő adataival. Mielőtt ezeket a különböző adatbázisokat összehasonlítani tudnánk, fontos, hogy megbízható statisztikák álljanak rendelkezésre (1). Általánosságban elmondható, hogy a szélsőséges vagy kiugró adatok azonosításának problémája akkor merül fel, ha alkalmazott gazdasági tanulmányokat végeznek, amelyek felmérési adatokat használnak.
Miután megpróbálta tisztázni ezeket a kiugró értékek és a szélsőértékek fogalmait, ez a cikk felidézi a statisztikai eszközöket, és különféle változatlan módszereket mutat be ezen értékek azonosítására. A többváltozós módszereket itt nem vizsgáljuk, mert ezek nem csak elméleti modelltől függenek, hanem nagyon nehézkesnek tűnik megvalósítani az ebben a tanulmányban használt méretű méretű egyéni és időbeli adatállományok esetében (2). Az ezekből az eszközökből és módszerekből épített nyolc technikát ezután tesztelik a Banque de France üzleti banki fájljában (Fiben), az ügyfelek és fizetési feltételek arányának kritériumán. Végül e technikák közül három alkalmazása hét arányszámra lehetővé teszi azok összehasonlítását, az arányválasztás szerepének felmérését és a megfigyelések kiküszöbölésének kumulatív jelenségeinek mérését.