xgboost为什么对代价函数用二阶泰勒展开

作者&投稿:禾淑 (若有异议请与网页底部的电邮联系)
自相关函数和互相关函数的主要差异是什么?? [理工学科]~

呵呵,不知道你看的是哪本书,用相关函数来做什么。这个问题很宽泛啊。。互相关函数体现两个信号的接近程度;自相关函数一个信号在不同时刻的相似程度。比如说白噪声的任意时刻都互不相关,所以它的自相关函数是冲击信号。计算公式书上有。计算过程和卷积相似,很好玩O(∩_∩)O~自相关函数的傅立叶变换是功率谱密度或者能谱密度。可以用R(0)来证明帕赛瓦尔方程。大概就是这样了,还有哪里不明白吗? 你的问题确实很宽泛。。。


因为这样做可以很清楚地理解整个目标,并且一步一步推导出如何进行树的学习。传统的GBDT大家可以理解如优化平法残差,但是这样一个形式包含可所有可以求导的目标函数。

也就是说有了这个形式,写出来的代码可以用来求解包括回归,分类和排序的各种问题,正式的推导可以使得机器学习的工具更加一般。

简答说一说吧:实际上使用二阶泰勒展开是为了xgboost能够【自定义loss function】,如果按照最小二乘法的损失函数直接推导,同样能够得到陈佬最终的推导式子:

二阶泰勒展开实际不是  最小二乘法,平方损失函数的二阶泰勒展开=最小二乘法。但陈佬为何想用二阶泰勒展开呢,猜是为了xgboost库的可扩展性,因为任何损失函数只要二阶可导即能【复用】陈佬所做的关于最小二乘法的任何推导。

而且泰勒的本质是尽量去模仿一个函数,猜二阶泰勒展开已经足以近似大量损失函数了,典型的还有基于分类的对数似然损失函数。嘿,这样同一套代码就能完成回归或者分类了,而不是每次都推导一番,重写训练代码。

扩展资料:

泰勒以微积分学中将函数展开成无穷级数的定理著称于世。这条定理大致可以叙述为:函数在一个点的邻域内的值可以用函数在该点的值及各阶导数值组成的无穷级数表示出来。

然而,在半个世纪里,数学家们并没有认识到泰勒定理的重大价值。这一重大价值是后来由拉格朗日发现的,他把这一定理刻画为微积分的基本定理。泰勒定理的严格证明是在定理诞生一个世纪之后,由柯西给出的。

泰勒定理开创了有限差分理论,使任何单变量函数都可展成幂级数;同时亦使泰勒成了有限差分理论的奠基者。泰勒于书中还讨论了微积分对一系列物理问题之应用。

其中以有关弦的横向振动之结果尤为重要。他透过求解方程导出了基本频率公式,开创了研究弦振问题之先河。此外,此书还包括了他于数学上之其他创造性工作,如论述常微分方程的奇异解,曲率问题之研究等。

参考资料来源:百度百科-代价函数

参考资料来源:百度百科-泰勒公式



说实话,你这问题真的不是很简单,不过我之前在一个平台看到关于xgboost的相关解读,评价还不错,推荐你,但愿你能解决把《机器学习XGboost算法_原理+实战》



传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。
传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导。
xgboost在代价函数里加入了正则项,用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲,正则项降低了模型的variance,使学习出来的模型更加简单,防止过拟合,这也是xgboost优于传统GBDT的一个特性。
Shrinkage(缩减),相当于学习速率(xgboost中的eta)。xgboost在进行完一次迭代后,会将叶子节点的权重乘上该系数,主要是为了削弱每棵树的影响,让后面有更大的学习空间。实际应用中,一般把eta设置得小一点,然后迭代次数设置得大一点。(补充:传统GBDT的实现也有学习速率)
列抽样(column subsampling)。xgboost借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算,这也是xgboost异于传统gbdt的一个特性。

对缺失值的处理。对于特征的值有缺失的样本,xgboost可以自动学习出它的分裂方向。
xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的?注意xgboost的并行不是tree粒度的并行,xgboost也是一次迭代完才能进行下一次迭代的(第t次迭代的代价函数里包含了前面t-1次迭代的预测值)。xgboost的并行是在特征粒度上的。我们知道,决策树的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点),xgboost在训练之前,预先对数据进行了排序,然后保存为block结构,后面的迭代中重复地使用这个结构,大大减小计算量。这个block结构也使得并行成为了可能,在进行节点的分裂时,需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计算就可以开多线程进行。

可并行的近似直方图算法。树节点在进行分裂时,我们需要计算每个特征的每个分割点对应的增益,即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下,贪心算法效率就会变得很低,所以xgboost还提出了一种可并行的近似直方图算法,用于高效地生成候选的分割点。


怎么看电脑cpu是i3和i5的,有什么区别?
boost和AES指令(主要是AES加密解密,普通人用不太到)。3.和i3一样集成了GMA显示核心。除了661的显示核心为900MHz外,其余为733MHz,实际游戏性能普遍要差于HD3200(但跑测试软件强)。4.目前有i5 650,i5 660,i5 661,i5 670。4M三级缓存,主频为3.2,3.33,3.33和3.46G,Turbo boost分别...

马奎boost是谁的鞋
马奎boost是阿迪达斯品牌下的鞋子,舒适度很高,阿迪达斯是运动鞋的元老级品牌了。adidas(阿迪达斯)创办于1949年,是德国运动用品制造商阿迪达斯AG成员公司。以其创办人阿道夫·阿迪·达斯勒(Adolf Adi Dassler)命名,1920年在黑措根奥拉赫开始生产鞋类产品。1949年8月18日以adidas AG名字登记。阿迪达斯原本由...

芯片公司排名前十
它已经成功开发了诸如企业与开发人员(CUDA,IndeX,Iray,MDL),游戏(GameWorks,G-syncBattery Boost),架构(Ampere,Volta,Turing)和行业技术(AI计算,深度学习,ML)的技术。 它正在研究3D深度学习,应用研究,人工智能和机器学习,计算机图形学,电子竞技,医学,网络等。 全球市场:NVIDIA总部位于美国圣塔克拉拉,在28个国家\/地区...

英特尔睿频加速技术是怎么回事?
回答:英特尔睿频加速技术概况 英特尔睿频加速技术是英特尔酷睿 i7\/i5 处理器的独有特性,也是英特尔新宣布的一项技术,英特尔官方对此技术的解释如下: 当启动一个运行程序后,处理器会自动加速到合适的频率,而原来的运行速度会提升 10%~20% 以保证程序流畅运行;应对复杂应用时,处理器可自动提高运行主频以...

尤尼克斯拍子 杆上写的 ARCSABER FB FLASH BOOST 排头上面中间_百度知 ...
ARC FB的CH版,也就是大陆行货。如果是正品的话,标价是1760的。一般专卖店会打六到七折左右卖,成交价在一千一到一千二左右。

英特尔处理器G系列跟i系列玩游戏什么区别求大神解答
英特尔处理器G是将其他处理器瑕疵到缺陷部分,或直接削减二级缓存,只有英特尔的入门级CPU设计用于攻击低端市场,启动频率为266MHZ,启动时没有二级缓存后期,到期对于差的整数性能,添加了128K或256KL2缓存。用于移动处理的CeleronM处理器具有1ML2Cache。Corei使用了许多新技术:32nm,TurboBoost,超线程技术...

阿迪bounce和boost哪个走路舒服 bounce和boost对比
Ultra Boost在跑鞋里不算轻盈,但alpha bounce重量更大一些,同是US 9码,测量后要重了近26g——看alpha bounce前卫的造型,也可能是adidas更希望定位它不是纯运动的一双鞋,也能适应不少生活场景,那重量就不那么要紧了。bounce和boost哪个更好 有媒体是这样介绍adidas的Bounce材质的:adidas在...

酷睿i3和i5分别是几核的?
和i3一样集成了GMA显示核心。除了661的显示核心为900MHz外,其余为733MHz,实际游戏性能普遍要差于HD3200(但跑测试软件强)。目前有i5650,i5660,i5661,i5670。4M三级缓存,主频为3.2,3.33,3.33和3.46G,Turboboost分别为3.46,3.6,3.6,3.73G。661和660只有显示核心频率有差别。i5660...

TurboBoost睿频加速技术的简介
LGA 1366的Core i7首先引入Turbo Boost技术,获得非常好的效果,对于LGA 1156的Core i5\/i7而言,Turbo Boost再次加强,自动超频的幅度更大,2.66G的Core i5甚至最高可以自动加速到3.2G。LGA 1156的Core i5\/i7还会根据被激活的核心数目调整相应的超频幅度,比如2.93G的Core i7 870在4个核心被激活的...

赛扬g系列从第几代开始不再生产?
五代。1、第一代赛扬G,采用LGA 1156接口,只有一款:G1101;2、第二代赛扬G,采用LGA 1155接口,型号3个数字,第一个数字是4或5。有11款:G440、G460、G465、G470、G530、G530T、G540、G540T、G550、G550T、G555;3、第三代赛扬G,也采用LGA 1155接口,型号4个数字,前两位数字是16。

香坊区17322856450: xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度 -
偶饺齐吉: 考虑这个简化的操作:试想把树的深度设为2,那么gbdt里面的基学习器都是二分类决策树,然后自己在二维坐标系上画很多点,然后不停的用boosting的方法用二分类决策树去进行分类,不同的是,我们简化权重的计算方式,初始化权重都为1...

香坊区17322856450: 下列对XGBOOST描述错误的是(). - 上学吧
偶饺齐吉: 1. 安装xgboost的python库.在cmd中把当前目录改到xgboost根文件加下面的python-package 文件夹,然后运行python setup.py install,即可完成xgboost的安装.使用xgboost时候直接使用2. import xgboost as xgb3. 注意,在python中使用xgboost时候,需要指明wrapper文件夹的所在,譬如使用如下的命令4. sys.path.append('C:\\.........\\xgboost\\wrapper')5. 自此,xgboost就已经安装完成了,应该可以正常使用了!

香坊区17322856450: 代价函数的全局最小值和局部最小值有什么区别 -
偶饺齐吉: 感觉问题说的不是很清楚....代价函数一般都是对错误做出惩罚的,一般前面还有一项你的原始的目标函数,从你的问题看,你应该是极小化问题,加上代价函数之后,可以理解为你的问题加上了一个限制(一般都是先验知识决定的),使得你的结果更加符合你的要求,比如由于犯不同的错,代价是不一样的,就可以引入代价函数.而且局部最小值肯定小于等于全局最小值,而且很有可能是没有竞争力的.但是他们都是一阶导数为0的点.

香坊区17322856450: 如何对XGBoost模型进行参数调优 -
偶饺齐吉: XGBoost参数调优完全指南(附Python代码)译注:文内提供的代码和运行结果有一定差异,可以从这里完整代码对照参考.另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中一部分特征做的,具体数值跟...

香坊区17322856450: 加权马尔科夫链是什么原理? -
偶饺齐吉: 由于每个时段的股票价格序列是一列相依的随机变量,各阶自相关系数刻画了各种滞时(各个时段)的股票价格之间的相关关系的强弱.因此,可考虑先分别依其前面若干时段的股票价格(对应的状态)对该时间段股票价格的状态进行预测,然后,按前面各时段与该时段相依关系的强弱加权求和来进行预测和综合分析,即可以达到充分、合理地利用历史数据进行预测的目的,而且经这样分析之后确定的投资策略也应该是更加合理的.这就是加权马尔可夫链预测的基本思想.

香坊区17322856450: python xgboost怎么预测 -
偶饺齐吉: 1、下载python安装包https://www.python.org/ftp/python/3.5.1/python-3.5.1-amd64.exe 当然,你也可以根据你的需要下载不同版本的python. 2、双击安装程序python-X.X.X.msi 3、选择Install for all users

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网