發布時間: 2020-06-23 11:31:12
?損失函數的懲罰項
機器學習中,一般損失函數后邊會添加一個額外項,一般稱作L1正則化L2正則化或者L1范數L2范數。L1、L2正則化可以看做是損失函數的懲罰項。對于線性回歸模型,使用L1正則化得模型稱作Lasso回歸,使用L2正則化的模型稱作Ridge回歸(嶺回歸)。
L1正則化是指權值向量中各個元素的絕對值之和,例如|w1| + |w2|。
L2正則化是指權值向量中各個元素的平方和然后再求平方根。
L1正則化可以產生稀疏權值矩陣,即產生一個稀疏模型,用于特征選擇。
假設有如下帶有L1正則化的目標函數等高線圖:
L1正則化的目標函數求解
圖中等值線是J0函數等值線,黑色菱形是L函數的圖形。我們現在的目標就是不僅要原函數更接近紫色的小圈,同時要使得菱形值越小越好。并且加入L1范數的解,一定是某條等高線和菱形的切點。這個切點位于頂點時就是最優解。這個頂點的坐標為(0,w)。(二維情況有四個頂點,多維情況下有更多)
L2正則化可以產生參數值較小的模型,能適應不同的數據集,一定程度上防止過擬合,抗擾動能力強。
L2正則化的目標函數求解
L2正則的分析與L1類似,只不過L函數由菱形變成了圓形,仍舊求原曲線和圓形的切點作為最優解。此時切點不容易在坐標軸上,而是位于靠近坐標軸的部分,因此我們可以說L2范數能讓解比較?。拷?),但是比較平滑(不等于0)。
最后,我們所說的希望模型結構風險(SRM)最小化,是要求擬合誤差足夠?。ń涷烇L險ERM最小化),同時模型不要太復雜(正則化項極小化),這樣得到的模型具有較強的泛化能力,即對未知的數據有更好的預測能力。
L1正則化和L2正則化L1正則化
就是在loss function后邊所加正則項為L1范數,加上L1范數容易得到稀疏解(0比較多)。L2正則化就是loss function后邊所加正則項為L2范數的平方,加上L2正則相比于L1正則來說,得到的解比較平滑(不是稀疏),但是同樣能夠保證解中接近于0(但不是等于0,所以相對平滑)的維度比較多,降低模型的復雜度。
下一篇: oracle數據庫簡介