Ano ang mga bahid ng paglalagay ng mga nawawalang halaga sa mean?

Talaan ng mga Nilalaman:

Ano ang mga bahid ng paglalagay ng mga nawawalang halaga sa mean?
Ano ang mga bahid ng paglalagay ng mga nawawalang halaga sa mean?
Anonim

Mean imputation distorts relationships between variables Ngunit ang ibig sabihin ng imputation ay nakakasira din ng mga multivariate na relasyon at nakakaapekto sa mga istatistika gaya ng correlation. Halimbawa, kinukuwenta ng sumusunod na tawag sa PROC CORR ang ugnayan sa pagitan ng variable na Orig_Height at ng mga variable ng Timbang at Edad.

Bakit isang masamang ideya ang paggamit ng paraan para sa nawawalang data?

Mean binabawasan ang isang pagkakaiba-iba ng data Pagpapalalim sa matematika, ang isang mas maliit na pagkakaiba ay humahantong sa mas makitid na agwat ng kumpiyansa sa pamamahagi ng posibilidad[3]. Wala itong hahantong sa iba kundi ang pagpapakilala ng bias sa aming modelo.

Bakit may problema ang mga nawawalang value?

Ang nawawalang data ay nagpapakita ng iba't ibang problema. Una, ang kawalan ng data ay nakakabawas sa istatistikal na kapangyarihan, na tumutukoy sa posibilidad na tanggihan ng pagsubok ang null hypothesis kapag ito ay mali. Pangalawa, ang nawalang data ay maaaring magdulot ng bias sa pagtatantya ng mga parameter. Pangatlo, maaari nitong bawasan ang pagiging kinatawan ng mga sample.

Bakit masama ang mean imputation?

Problema 1: Ang ibig sabihin ay imputation ay hindi nagpapanatili ng mga ugnayan sa pagitan ng mga variable. Totoo, ang paglalagay ng mean ay nagpapanatili ng mean ng naobserbahang data. Kaya kung ang data ay ganap na nawawala nang random, ang pagtatantya ng average ay mananatiling walang kinikilingan.

Dapat mo bang palitan ang nawawalang data ng ibig sabihin?

Outliers data point ay magkakaroon ng malaking epekto sa mean at samakatuwid, sa mga ganitong sitwasyon, hindi inirerekomenda na gamitin ang mean para sa pagpapalit ng mga nawawalang value. Ang paggamit ng mga mean na halaga para sa pagpapalit ng mga nawawalang halaga ay maaaring hindi lumikha ng isang mahusay na modelo at samakatuwid ay maiiwasan.

Inirerekumendang: