一直想把數據預處理的邏輯給理清楚點,在這里和大家一起分享。
一:缺失值的處理
刪除缺失值
這是一種很常用的策略。
缺點:如果缺失值太多,最終刪除到沒有什么數據了。那就不好辦了。
2.2 缺失值的填補
(1)均值法
根據缺失值的屬性相關系數最大的那個屬性把數據分成幾個組,然后分別計算每個組的均值,把這些均值放入到缺失的數值里面就可以了。
缺點:改變了數據的分布,還有就是有的優(yōu)化問題會對方差優(yōu)化,這樣會讓對方差優(yōu)化問題變得不準確。
(2)隨機填補
一直想把數據預處理的邏輯給理清楚點,在這里和大家一起分享。
刪除缺失值
這是一種很常用的策略。
缺點:如果缺失值太多,最終刪除到沒有什么數據了。那就不好辦了。
2.2 缺失值的填補
(1)均值法
根據缺失值的屬性相關系數最大的那個屬性把數據分成幾個組,然后分別計算每個組的均值,把這些均值放入到缺失的數值里面就可以了。
缺點:改變了數據的分布,還有就是有的優(yōu)化問題會對方差優(yōu)化,這樣會讓對方差優(yōu)化問題變得不準確。
(2)隨機填補