一 背景
首先舉個(gè)例子:
正樣本(90) 負(fù)樣本(10)
模型1預(yù)測(cè) 正(90) 正(10)
模型2預(yù)測(cè) 正(70)負(fù)(20) 正(5)負(fù)(5)
結(jié)論:
模型1準(zhǔn)確率90%;
模型2 準(zhǔn)確率75%
考慮對(duì)正負(fù)樣本對(duì)預(yù)測(cè)能力,顯然模型2要比模型1好,但對(duì)于這種正負(fù)樣本分布不平衡對(duì)數(shù)據(jù),準(zhǔn)確率不能衡量分類(lèi)器對(duì)好壞了,所以需要指標(biāo)auc解決傾斜樣本的評(píng)價(jià)問(wèn)題。
二分類(lèi)混淆矩陣
預(yù)測(cè)\實(shí)際 1 0
1 TP FP
0 FN TN
TPR=TP/P=TP/TP+FN 直觀1中猜對(duì)多少
FPR=FP/N=FP/FP+TN 直觀0中猜錯(cuò)多少
Auc對(duì)橫縱坐標(biāo)分別為FPR和TPR,相對(duì)于y=x這條直線靠近左上角對(duì)分類(lèi)器性能更好,所以模型2更優(yōu)。
TPR FPR
模型1 90/90=1 10/10=1