Logo cs.boatexistence.com

Jaké jsou nedostatky přičítání chybějících hodnot střední hodnotou?

Obsah:

Jaké jsou nedostatky přičítání chybějících hodnot střední hodnotou?
Jaké jsou nedostatky přičítání chybějících hodnot střední hodnotou?

Video: Jaké jsou nedostatky přičítání chybějících hodnot střední hodnotou?

Video: Jaké jsou nedostatky přičítání chybějících hodnot střední hodnotou?
Video: How To Handle Missing Values in Categorical Features 2024, Smět
Anonim

Průměrná imputace narušuje vztahy mezi proměnnými Střední imputace však také narušuje mnohorozměrné vztahy a ovlivňuje statistiky, jako je korelace. Například následující volání PROC CORR vypočítá korelaci mezi proměnnou Orig_Height a proměnnými Weight a Age.

Proč je použití prostředku pro chybějící data špatný nápad?

Mean snižuje rozptyl dat Když půjdeme hlouběji do matematiky, menší rozptyl vede k užšímu intervalu spolehlivosti v rozdělení pravděpodobnosti[3]. To nevede k ničemu jinému než k zavedení zkreslení našeho modelu.

Proč jsou chybějící hodnoty problémem?

Chybí data představují různé problémy. Za prvé, absence dat snižuje statistickou sílu, která se týká pravděpodobnosti, že test zamítne nulovou hypotézu, když je nepravdivá. Za druhé, ztracená data mohou způsobit zkreslení v odhadu parametrů. Za třetí, může to snížit reprezentativnost vzorků.

Proč je střední imputace špatná?

Problém 1: Střední imputace nezachovává vztahy mezi proměnnými. Pravda, imputace průměru zachovává průměr pozorovaných dat. Pokud tedy údaje zcela náhodně chybí, zůstává odhad průměru nezkreslený.

Měli byste chybějící údaje nahradit střední hodnotou?

Odlehlé datové body budou mít významný dopad na střední hodnotu, a proto se v takových případech nedoporučuje používat střední hodnotu k nahrazení chybějících hodnot. Použití středních hodnot pro nahrazení chybějících hodnot nemusí vytvořit skvělý model, a proto je vyloučeno.

Doporučuje: