Logo sk.boatexistence.com

Aké sú nedostatky pripisovania chýbajúcich hodnôt pomocou strednej hodnoty?

Obsah:

Aké sú nedostatky pripisovania chýbajúcich hodnôt pomocou strednej hodnoty?
Aké sú nedostatky pripisovania chýbajúcich hodnôt pomocou strednej hodnoty?

Video: Aké sú nedostatky pripisovania chýbajúcich hodnôt pomocou strednej hodnoty?

Video: Aké sú nedostatky pripisovania chýbajúcich hodnôt pomocou strednej hodnoty?
Video: How To... Replace Missing Values with Mean Imputation Method in R #77 2024, Smieť
Anonim

Priemerná imputácia skresľuje vzťahy medzi premennými Stredná imputácia však narúša aj mnohorozmerné vzťahy a ovplyvňuje štatistiky, ako je korelácia. Napríklad nasledujúce volanie funkcie PROC CORR vypočítava koreláciu medzi premennou Orig_Height a premennými Hmotnosť a Vek.

Prečo nie je vhodné použiť prostriedok na chýbajúce údaje?

Priemerná hodnota znižuje rozptyl údajov Ak ideme hlbšie do matematiky, menší rozptyl vedie k užšiemu intervalu spoľahlivosti v rozdelení pravdepodobnosti[3]. To nevedie k ničomu inému, ako k skresleniu nášho modelu.

Prečo sú chýbajúce hodnoty problémom?

Chýbajúce údaje predstavujú rôzne problémy. Po prvé, absencia údajov znižuje štatistickú silu, ktorá sa týka pravdepodobnosti, že test zamietne nulovú hypotézu, ak je nepravdivá. Po druhé, stratené údaje môžu spôsobiť skreslenie odhadu parametrov. Po tretie, môže to znížiť reprezentatívnosť vzoriek.

Prečo je priemerná imputácia zlá?

Problém 1: Stredná hodnota imputácia nezachováva vzťahy medzi premennými. Je pravda, že pripočítanie priemeru zachováva priemer pozorovaných údajov. Ak teda údaje chýbajú úplne náhodne, odhad priemeru zostáva neskreslený.

Mali by ste nahradiť chýbajúce údaje strednou hodnotou?

Odľahlé dátové body budú mať významný vplyv na priemer, a preto sa v takýchto prípadoch neodporúčame použiť stred na nahradenie chýbajúcich hodnôt. Použitie stredných hodnôt na nahradenie chýbajúcich hodnôt nemusí vytvoriť skvelý model, a preto je vylúčené.

Odporúča: