大數據培訓_機器學習模型的評價指標和方法
衡量分類器的好壞
分類模型評估用于對分類模型的預測結果進行評估,分別可以對二分類模型和多分類模型進行評估,具體由目標變量的類別數來確定。
對于二分類模型,評估指標包括:混淆矩陣(Confusion Matrix)、精確率(Precision)、召回率(Recall)、F1值(F1-Measure)、AUC、ROC曲線(Receiver Operating Characteristic)、PR曲線(Precision and Recall)。
對于多分類模型,評估指標包括混淆矩陣(Confusion Matrix)、準確率(Accuracy)、各類別精準率(Precision by Label)、各類別召回率(Recall by Label)、各類別F1值(F1-Measure by Label)。
二分類問題
對于二分類問題,要求將實際樣本分成正樣本(positive)或負樣本(negative),則預測結果會出現以下四種情況:
? 二分類問題的預測結果?
實際 | 預測 | 結果 |
正樣本 | 正樣本 | 真正樣本(TP) |
負樣本 | 正樣本 | 假正樣本(FP) |
負樣本 | 負樣本 | 真負樣本(TN) |
正樣本 | 負樣本 | 假負樣本(FN) |
例如下述場景:某班有60名男生,40名女生,共100人。目標要找出所有的女生?,F在某人挑選出了50人,其中有35名女生,15名男生,則:
真正樣本(TP):35(預測正確的女生)
假正樣本(FP):15(誤當女生預測的男生)
真負樣本(TN):45(預測正確的男生)
假負樣本(FN):5(誤當男生預測的女生)
可得到以下標量來評估這次的分類工作:
精確率:Precision=TP/(TP+FP)
召回率:Recall=True Positive Rate(TPR)=TP/(TP+FN)
F1測量:F1-Measure=2TP/(2TP+FP+FN)
FPR:False Positive Rate(FPR)=FP/(FP+TN)
PR曲線:以Precision為y軸,Recall為x軸繪制得到的曲線。
ROC曲線:以TPR為y軸,FPR為x軸繪制得到的曲線。
AUC數據:ROC曲線下方的面積值。
要計算這些指標,模型評估輸入數據集中需要包含Target列,該列數據元數據的第二個Nominal值代表正樣本。
對于多分類問題,根據多個類別的預測結果構建混淆矩陣,每一列代表預測值,每一行代表實際的類別。
準確率(Accuracy)是指全局預測正確的樣本數占所有樣本數的比例。
各類別精準率(Precision by Label)是指在該類別中預測正確樣本數占預測為該類別樣本數的比例。
各類別召回率(Recall by Label)是指在該類別中預測正確的樣本數占該類別實際樣本數的比例。
各類別F1值(F1-Measure by Label)是根據各類別精準率和召回率計算得到的評價指標。
評判標準
AUC表示為ROC曲線下方的面積,簡單來說,AUC值越大,說明模型分類正確率
越高。
準確率表示樣本中被識別成正樣本準確率,即正樣本被識別成正樣本的個數與所
有樣本被識別成正樣本個數比例,衡量模型的查準率,數值越高越好。
召回率表示樣本中正樣本被識別成正樣本的比例,即被識別成正樣本的個數與實
際正樣本的個數比例,衡量模型的查全率,數值越高越好。
F1 score是統計學中用來衡量二分類模型精確度的一種指標??梢钥醋魇悄P蜏蚀_
率和召回率的一種加權平均,數值越高越好。
??