正则化详解

作者&投稿：休唐（若有异议请与网页底部的电邮联系）

机器学习模型需要拥有很好地泛化能力来适应训练集中没有出现过的新样本。在机器学习应用时，我们经常会遇到过度拟合(over-fitting)的问题，可能会导致训练出来的模型效果很差。接下来，我们将谈论的正则化(regularization)技术，它可以改善或者减少过度拟合问题，以使学习算法更好实现。

机器学习中一个重要的话题便是模型的泛化能力，泛化能力强的模型才是好模型，对于训练好的模型，若在训练集表现差，不必说在测试集表现同样会很差，这可能是欠拟合（under fitting）导致；若模型在训练集表现非常好，却在测试集上差强人意，则这便是过拟合（over fitting）导致的，过拟合与欠拟合也可以用 Bias 与 Variance 的角度来解释，欠拟合会导致高 Bias ，过拟合会导致高 Variance ，所以模型需要在 Bias 与 Variance 之间做出一个权衡。

使用简单的模型去拟合复杂数据时，会导致模型很难拟合数据的真实分布，这时模型便欠拟合了，或者说有很大的 Bias， Bias 即为模型的期望输出与其真实输出之间的差异 ；有时为了得到比较精确的模型而过度拟合训练数据，或者模型复杂度过高时，可能连训练数据的噪音也拟合了，导致模型在训练集上效果非常好，但泛化性能却很差，这时模型便过拟合了，或者说有很大的 Variance，这时模型在不同训练集上得到的模型波动比较大， Variance 刻画了不同训练集得到的模型的输出与这些模型期望输出的差异 。

举例：

Bias反映的是模型的期望与真实值之间的误差，即模型本身的精准度，Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。

我们通过公式来直观了解一下，文字没有数学符号解释的清楚：

用图形解释方差与偏差：

举一个例子，一次打靶实验，目标是为了打到10环，但是实际上只打到了7环，那么这里面的Error就是3。具体分析打到7环的原因，可能有两方面：一是瞄准出了问题，比如实际上射击瞄准的是9环而不是10环；二是枪本身的稳定性有问题，虽然瞄准的是9环，但是只打到了7环。那么在上面一次射击实验中，Bias就是1,反应的是模型期望与真实目标的差距，而在这次试验中，由于Variance所带来的误差就是2，即虽然瞄准的是9环，但由于本身模型缺乏稳定性，造成了实际结果与模型期望之间的差距。

简单的模型会有一个较大的偏差和较小的方差，复杂的模型偏差较小方差较大。

解决欠拟合的方法：
1、增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间;
2、尝试非线性模型，比如核SVM 、决策树、DNN等模型;
3、如果有正则项可以较小正则项参数;
4、Boosting ,Boosting 往往会有较小的 Bias，比如 Gradient Boosting 等.
解决过拟合的方法：
1、交叉检验，通过交叉检验得到较优的模型参数;
2、特征选择，减少特征数或使用较少的特征组合，对于按区间离散化的特征，增大划分的区间;
3、正则化，常用的有 L1、L2 正则。而且 L1正则还可以自动进行特征选择;
4、如果有正则项则可以考虑增大正则项参数;
5、增加训练数据可以有限的避免过拟合;
6、Bagging ,将多个弱学习器Bagging 一下效果会好很多，比如随机森林等.
DNN中常见的方法：
1、早停策略。本质上是交叉验证策略，选择合适的训练次数，避免训练的网络过度拟合训练数据。
2、集成学习策略。而DNN可以用Bagging的思路来正则化。首先我们要对原始的m个训练样本进行有放回随机采样，构建N组m个样本的数据集，然后分别用这N组数据集去训练我们的DNN。即采用我们的前向传播算法和反向传播算法得到N个DNN模型的W,b参数组合，最后对N个DNN模型的输出用加权平均法或者投票法决定最终输出。不过用集成学习Bagging的方法有一个问题，就是我们的DNN模型本来就比较复杂，参数很多。现在又变成了N个DNN模型，这样参数又增加了N倍，从而导致训练这样的网络要花更加多的时间和空间。因此一般N的个数不能太多，比如5-10个就可以了。
3、DropOut策略。所谓的Dropout指的是在用前向传播算法和反向传播算法训练DNN模型时，一批数据迭代时，随机的从全连接DNN网络中去掉一部分隐藏层的神经元。　在对训练集中的一批数据进行训练时，我们随机去掉一部分隐藏层的神经元，并用去掉隐藏层的神经元的网络来拟合我们的一批训练数据。使用基于dropout的正则化比基于bagging的正则化简单，这显而易见，当然天下没有免费的午餐，由于dropout会将原始数据分批迭代，因此原始数据集最好较大，否则模型可能会欠拟合。

正则化的目的是限制参数过多或者过大，避免模型更加复杂。例如，使用多项式模型，如果使用 10 阶多项式，模型可能过于复杂，容易发生过拟合。因此需要在目标函数添加一些额外的惩罚项，即正则项。添加惩罚项可看成是对损失函数中的某些参数做一些限制，根据惩罚项的不同可分为：L0范数惩罚、L1范数惩罚（参数稀疏性惩罚）、L2范数惩罚（权重衰减惩罚）。
L0范数惩罚：为了防止过拟合，我们可以将其高阶部分的权重 w 限制为 0，这样，就相当于从高阶的形式转换为低阶。为了达到这一目的，最直观的方法就是限制 w 的个数，但是这类条件属于 NP-hard 问题，求解非常困难。因此机器学习中经常使用L1、L2正则化。L1正则化项也称为Lasso，L2正则化参数也称为Ridge。
L1范数：权值向量w中各个元素的绝对值之和，L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择。
L2范数：权值向量w中各个元素的平方和然后再求平方根，L2正则化可以防止模型过拟合；一定程度上，L1也可以防止过拟合。

上面我们得到了带约束的优化问题A2，在实际的求解中，带约束的优化问题往往较难求解，大多都是转化为无约束优化问题去求解。接下来自然而然的我们采用拉格朗日乘子法将约束转化到目标函数上去，也就将约束优化问题A2转化为一个无约束的优化问题。那么这个无约束优化问题的形式是什么样的呢？这里直接先把最终的结论摆上来：

稀疏性对很多机器学习建模问题来说是非常重要的，也是非常好的一个性质。既然有很多系数等于0了，那么说明与之对应的输入是没有用了，这些输入就可以舍去，相当于起到了降维和feature selection的作用。特殊要说明的是用L1正则化来降维和PCA降维是不同的，可以理解为L1正则化是用了数据的标签来做的，而PCA无需数据的标签。所以L1正则化实际上是带有监督学习性质的降维方法。

拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，专业一点的说法是抗扰动能力强。

λ可以控制L图形的大小，λ越小，L的图形越大（上图中的黑色方框和圆）；λ越大，L的图形越小，最后求得代价函数最值时各参数也会变得很小。从另一方面看，由公式5可以看到，λ越大，θj衰减得越快。

机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？

机器学习防止欠拟合、过拟合方法

【学界】有约束转无约束，拉格朗日松弛观点下的L1正则化稀疏性探讨

斯坦福机器学习课程第三周 (4)正则化：解决过拟合问题

拉格朗日乘子法如何理解？

机器学习中正则化项L1和L2的直观理解

高考志愿填报规则及方法详解
二是降低了院校录取数据的年度波动幅度，出现“大小年”现象的几率小了。三是院校录取分数区间扁平化了，即最高录取分与最低录取分的差值小了。四是增加了考生第一志愿的录取概率，降低了志愿填报难度和报考风险。四、总结：高考志愿填报是一个涉及多个方面的复杂过程，需要学生全面了解自己的兴趣和优势，...

大话西游2免费版大力装备炼化详解介绍_大话西游2免费版大力装备炼化详解...
帽子的炼化属性包括连击率（10）、狂暴、致命（12.4）、命中率以及加成。腰带中，狂暴值通常为5.1，同时可能叠加三项狂暴，这在一定程度上考验玩家的炼化运气。披风可提升连击次数和反击次数，同时具有致命（5）和加成。面具则提供狂暴（5.1）、反击率和连击率（2.7），以及命中率的提升。挂件则包括...

股票交易新规则详解
(1) 如该只证券的成交量为零,则将成交价位揭示为开盘价、最近成交价、最高价、最低价,并揭示出成交量、成交金额。 (2) 剩余有效委托中,实际的最高叫买价揭示为叫买揭示价,若最高叫买价不存在,则叫买揭示价揭示为空;实际的最低叫卖价揭示为叫卖揭示价,若最低叫卖价不存在,则叫卖揭示价揭示为空。集合竞...

房屋征收与补偿条例(相关细则与补偿方式详解)
2、搬迁费和临时安置费(俗称过渡费) 搬迁费和临时安置费用,具体数额各市一般都已确定具体数额及计算方式,详见各地出具标准,在这里小编所列算的补偿标准,是以大众化被拆迁人自主搬迁和过渡方式进行的计算。如果拆迁人提供周转房,则无需支付临时安置费。以石家庄为例(自主搬迁):2012年搬迁费20元\/平方米,按2次计算;...

掼蛋规则,掼蛋技巧秘籍是什么?图文详解
如果某个玩家连续3次头游,则该玩家所在的一方当局额外升1级;累计4次额外升2级,以此类推; 如果某个玩家连续3次末游,则该玩家所在的一方当局额外降1级;累计4次末游额外降2级,以此类推; 打到系统指定的最终点数的那一局,必须当局赢家没有末游才可以最终赢得本局。否则当局玩家不升级。 6.进贡规则...

目的论的三个原则详解内容是什么?
1、目的原则(skopos rule)：目的论认为，所有翻译活动遵循的首要原则是“目的原则”，即翻译应能在译入语情境和文化中，按译入语接受者期待的方式发生作用。翻译行为所要达到的目的决定整个翻译行为的过程，即结果决定方法。2、连贯性原则：连贯性(coherence rule)指译文必须符合语内连贯(intra—textual ...

十天干与五行详解,分别对应的五行是什么
(4)生于冬,壬水当权,见木则需火暖局,见土则宜根固火实,若金水气盛无木无火,两神呈象为美,若木火飘虚,遇金强,恐遭伤为殃。10、癸水详解(1)癸水为雨露之水,乃纯阴之水,发源虽长,其必权弱,其势最静,纯润土养金,发育万物,得龙而运,变化不测,所谓逢辰即化,龙即辰也,非真龙而能变化也,得辰...

天干相生详解:壬癸水生甲乙木
化则有情。从则相济。”。壬水命人，月支为申子辰，亥子丑，就是冲天奔地的洪水，奏的壬水逢丁火最有情，生于炎天的巳午月，如没有金水来与丁火合木，只有津润之功了。以日柱的天干壬癸来论人的性格壬癸水生甲乙木:壬水入命的特点壬水命人一辈子当中，子女命通常不吉，此中以女性...

命理知识详解五行之土
三秋土性虚寒,得火则实,故秋土不能离火也,当旺之金,得火则制,衰绝之木得火则化,故火重重不厌,虚寒之土,见水泛滥,必致溃散,故遇水为非祥,弱者喜生扶,为一定之理,秋土虚弱,得比肩则增其力,此指立秋以后,霜降之前而言,若至霜降后,土旺主事,戌宫有墓库之火生之,不必比助,自然生旺,见比又嫌太过矣...

奥迪Q5和Q5L的区别详解
其中，Q5 2.0T的最大功率输出为185千瓦，峰值扭矩为370牛·米；Q5L 40TFSI则是最大功率输出为185千瓦，峰值扭矩为370牛·米，与Q5同等级别的配置。底盘悬挂：奥迪Q5和Q5L在底盘悬挂系统上也存在着微小的差别，主要体现在针对不同车身长度和负载需求做了一定的优化调整。在肯定这两款车的稳定性和...

黔西南布依族苗族自治州15971558925： 正则化 - 搜狗百科？
慈怕永适： 正则化其实就是归一化;归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量.在进行模态分析时,所求解的结果中,譬如振型幅值,只具有相对意义,其绝对值没有意义,所以在输出结果的时候,就进行归一化,这样可以查看结构不同位置的相对值.

黔西南布依族苗族自治州15971558925： 什么是tikhonov正则化方法 - ？
慈怕永适： 正则化(regularization)在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题.大条件数意味着舍入误差或其它误差会严重地影响问题的结果.反问题有两种形式.最...

黔西南布依族苗族自治州15971558925： 怎么理解在模型中使用L1+L2正则化 - ？
慈怕永适： 图像复原从数学角度考虑,它等价于第一类fredholm积分方程,是一种反问题,具有很大的病态性,因此,必须进行正则化处理.从统计的角度看,正则化处理其实就是一种图像的先验信息约束 .假设图像退化过程用如下模型描述: g=hf+n (1) 则图像复...

黔西南布依族苗族自治州15971558925： 数学中正则化矩阵,正则项是什么意思.有直观的解释或例子么 - ？
慈怕永适： 我理解正则是正交归一.

黔西南布依族苗族自治州15971558925： l1正则化和l2正则化有什么区别,为什么 - ？
慈怕永适： 正则化(regularization),是指在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题.大条件数意味着舍入误差或其它误差会严重地影响问题的结果. 求解不适定问...

黔西南布依族苗族自治州15971558925： 正则化方法 - ？
慈怕永适： 正则化方法 Regularization Method 正交化方法 Orthogonalization Method

黔西南布依族苗族自治州15971558925： 关于使用最小二乘法后“正则化”的问题?? - ？
慈怕永适： “正则化”, Normalization, 也称作归一化.这个概念和最小二乘法之间并无必然联系,而是一个独立的概念.α=0.19,β=0.72 α+β=0.19 + 0.72 = 0.91 现在这个0.91不等于1.为此要把这个0.91 归到1.即把 0.91 扩大K倍后使之成为1.而 α 和 β 也就自然按比例协同变化.α* = Kα = (1/0.91) * 0.19 = 0.21 β* = Kβ = (1/0.91) * 0.72 = 0.79

黔西南布依族苗族自治州15971558925： 集体智慧编程的例子都实现不了是为什么 - ？
慈怕永适： 集体智慧编程的例子都实现不了是为什么 1.正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布).约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解). 2.同时,正则化解决了逆问题的不适定性,产生的解是存在,唯一同时也依赖于数据的,噪声对不适定的影响就弱,解就不会过拟合,而且如果先验(正则化)合适,则解就倾向于是符合真解(更不会过拟合了),即使训练集中彼此间不相关的样本数很少.

黔西南布依族苗族自治州15971558925： 贝叶斯正则化预测比较好? - ？
慈怕永适： 贝叶斯预测模型是运用贝叶斯统计进行的一种预测.贝叶斯统计不同于一般的统计方法,其不仅利用模型信息和数据信息,而且充分利用先验信息.通过实证分析的方法,将贝叶斯预测模型与普通回归预测模型的预测结果进行比较,结果表明贝...

你可能想看的相关专题

星空见康网

正则化详解

你可能想看的相关专题