一直想把數據預處理的邏輯給理清楚點,在這里和大家一起分享。

一:缺失值的處理

  1. 刪除缺失值

這是一種很常用的策略。

缺點:如果缺失值太多,最終刪除到沒有什么數據了。那就不好辦了。

2.2 缺失值的填補

    (1)均值法

        根據缺失值的屬性相關系數最大的那個屬性把數據分成幾個組,然后分別計算每個組的均值,把這些均值放入到缺失的數值里面就可以了。

缺點:改變了數據的分布,還有就是有的優(yōu)化問題會對方差優(yōu)化,這樣會讓對方差優(yōu)化問題變得不準確。

    (2)隨機填補

網友評論