推荐系统之评估方法和评价指标PR、ROC、AUC

作者&投稿:寇黄 (若有异议请与网页底部的电邮联系)
~

推荐系统的评估相关的知识比重在整个推荐系统的知识框架中占比不大,但是其重要程度不言而喻,因为采用的评价指标直接影响到了推荐系统的优化方向是否正确。 评价指标主要用于评价推荐系统各方面的性能 ,按照应用场景可以分为离线评估和线上测试。其中离线评估的主要方法包括 Holdout检验、交叉检验、留一验证、自助法 等,评价指标主要包括 用户满意度、预测准确度、召回率、覆盖率、多样性、新颖性、流行度、均方根误差、对数损失、P-R曲线、AUC、ROC曲线 等等。线上测试的评估方法主要包括 A/B测试、Interleaving方法 等,评价指标主要包括 点击率、转化率、留存率、平均点击个数 等等。本文将着重介绍 离线评估相关方法和指标 ,尤其是 P-R曲线、AUC、ROC曲线 等,这些评价指标是最常用的也是最基本的,出现在各类推荐相关的论文中,因此需要重点掌握。

在推荐系统的评估过程中,离线评估往往被当做最常用也是最基本的评估方法。顾名思义,离线评估是指在将模型部署于线上环境之前,在离线环境中进行的评估。由于不用部署到生产环境,离线评估没有线上部署的工程风险,也无须浪费宝贵的线上流量资源,而且具有测试时间短,同时进行多组并行测试、能够利用丰富的线下计算资源等诸多优点。

Holdout检验的缺点也很明显,即在验证集上计算出来的评估指标与训练集合验证集的划分有直接关系,如果仅仅进行少量Holdout检验,则得到的结论存在较大的随机性。为了消除这种随机性,“交叉检验”的思想被提出。

结果:

精准率和召回率是矛盾统一的两个指标:为了提高精准率,分类器需要尽量在“更有把握时”才把样本预测为正样本,即降低了精准率计算公式中的分母部分。但往往会因为过于保守而漏掉很多“没有把握”的正样本,导致召回率过低。
以挑选西瓜为例,若希望将好瓜尽可能多地挑选出来,则可通过增加选瓜的数量来实现,如果将所有的西瓜都选上,那么所有的好瓜也必然都被选上了,这样就会导致Precision很低,但是Recall就会相对较高。若希望选出的瓜中好瓜比例尽可能高,则可只挑选最有把握的瓜,但这样就难免会漏掉不少好瓜,使得Recall较低。
为了综合反映Precision和Recall的结果,可以使用F1-score,F1-score是精准率和召回率调和平均值,定义如下:

用一张图总结一下:

然后,由此引出True Positive Rate(真阳率TPR)、False Positive Rate(伪阳率FPR)两个概念,计算方式如下:

仔细观察上面的两个式子,发现两个式子的分子其实对应了混淆矩阵的第二行,即预测类别为1的那一行。另外可以发现TPR就是用TP除以TP所在的列,FPR就是用FP除以FP所在的列。二者的含义如下:

表示的意义是:对于不论真实类别是0还是1的样本,模型预测样本为1的概率都是相等的。
换句话说,模型对正例和负例毫无区分能力,做决策和抛硬币没啥区别。因此,我们认为AUC的最小值为0.5(当然也存在预测相反这种极端的情况,AUC小于0.5,这种情况相当于分类器总是把对的说成错的,错的认为是对的,那么只要把预测类别取反,便得到了一个AUC大于0.5的分类器)。

其中,1代表正样本,0代表负样本。我们来计算下它们的Precision。如下表所示:

AP的计算只取正样本处的Precision进行平均,即AP = (1/1+2/4+3/5+4/6)/4=0.6917。如果推荐系统对测试集中每个用户都进行样本排序,那么每个用户都会计算出一个AP值,再对所有用户的AP值进行平均,就得到了mAP。也就是说,mAP是对精确度平均的平均。
值得注意的是,mAP的计算方法和P-R曲线、ROC曲线的计算方式完全不同,因为mAP需要对每个用户的样本进行分用户排序,而P-R曲线和ROC曲线均是对全量测试样本进行排序。

下面以一个经典的莺尾花分类的例子来展示各种指标的计算。
导入莺尾花数据,使用Holdout检验,将数据集随机划分成训练集和测试集:

创建一个线性SVM分类器,计算测试数据到决策平面的距离以及对测试数据进行预测:

计算准确率:

计算精准率:

计算召回率:

计算F1-Score:

计算精确率均值AP:

计算混淆矩阵:

绘制P-R曲线,并且计算AUC:

绘制ROC曲线并且计算AUC:

无论离线评估如何仿真线上环境,终究无法完全还原线上的所有变量。对几乎所有的互联网公司来说,线上A/B测试都是验证新模块、新功能、新产品是否有效的主要测试方法。

上图中用户被随机均分成两组,橘色和绿色代表被控制的变量,最右侧是转化率。通过这种方式可以看到,系统中单个变量对系统产生的整体影响。
相对离线评估而言,线上A/B测试无法被替代的原因主要有以下三点:

一般来讲,A/B测试都是模型上线前的最后一道测试,通过A/B测试检验的模型将直接服务于线上用户,完成公司的商业目标。因此,A/B测试的指标与线上业务的核心指标保持一致。
下表列出了电商类推荐模型、新闻类推荐模型、视频类推荐模型的线上A/B测试的主要评估指标:

线上A/B测试的指标与离线评估指标有较大差异。离线评估不具备直接计算业务核心指标的条件,因此退而求其次,选择了偏向于技术评估的模型相关指标。但在公司层面,更关心能够驱动业务发展的核心指标。因此,在具备线上测试环境时,利用A/B测试验证模型对业务核心指标的提升效果是有必要的。从这个意义上讲,线上A/B测试的作用是离线评估无法替代的。




推荐系统之评估方法和评价指标PR、ROC、AUC
其中离线评估的主要方法包括 Holdout检验、交叉检验、留一验证、自助法 等,评价指标主要包括 用户满意度、预测准确度、召回率、覆盖率、多样性、新颖性、流行度、均方根误差、对数损失、P-R曲线、AUC、ROC曲线 等等。线上测试的评估方法主要包括 A\/B测试、Interleaving方法 等,评价指标主要包括 点击率...

如何量化评估推荐系统的推荐结果
1、是衡量点击和打开率,这说明用户是否对内容感兴趣(当然,这与UI视觉有很大关系,只能说在UI已定的情况下查看)。2、通过推荐系统替代用户主动搜索或者主动浏览的次数,可以通过横向与使用其他产品对比较,比如使用推荐系统提供内容的用户搜索次数和点击浏览目录次数明显下降。3、推荐系统的满意度口碑,刨...

如何评价推荐系统的结果质量
使用大数据算法竞赛,采用静态评估方法计算。 例如在电影、电视剧的推荐中,用户 - 物品评分矩阵(User-Item-Rating)就是常用于离线评估,在学术界尤其常见。因为高校、学术界很难接触真实线上环境,用离线评估是比较方便来评估算法好坏的,也算是学术界的无奈吧。 在线 在线评估可以随时进行abtest,缺点是,线上环境复杂,...

什么是 推荐系统 ,有哪些主要的推荐方法? - 知乎
在评估推荐系统的效果时,面临的主要挑战是如何量化推荐系统的性能。传统的评估指标如点击率(CTR)和用户停留时间虽然能够提供一定的参考,但它们往往难以全面反映用户体验的真实情况。因此,建立一个更为全面、准确的评估体系成为亟待解决的问题。推荐系统的普及对人类生活产生了深远影响。它不仅改变了人们获...

...网络在推荐系统中的应用(五)--数据集和评估方法
评估方法:衡量推荐精准的度量标准为了衡量推荐系统的有效性,我们依赖于以下几种关键的评估指标:命中率(HR: Hits Ratio): 简洁地揭示用户至少对一项推荐项目产生兴趣的比例。精度、召回率和F1: 细分到top-K推荐的精确度,衡量推荐项目中的点击率,以及推荐质量的整体表现。NDCG (Normalized Discounted ...

推荐系统(电影推荐系统)
switching:根据当前状态在不同的推荐系统之间进行切换 7. 推荐系统性能评估 线下评估 RMSE 均方根误差:MAE 绝对值误差:Recall 召回率:针对评分不多的商品 recall = 6\/10 = 0.6 recall值越大,推荐系统包含越多用户所需,目标是推荐的商品尽可能是用户所需 Precision:6\/50 = 0.12 与recall...

推荐系统(电影推荐系统)
3. 混合算法 混合多种推荐策略,如mixed、feature combination、cascade和switching,以提高推荐效果。这需要不断实践、测试和优化。评估推荐系统性能的关键指标有线下评估的RMSE、MAE、Recall、Precision和线上评估的CTR、CR、ROI。理想情况下,推荐系统应提供高精度和高用户参与度,同时控制计算成本。解决新...

兴趣电商的推荐系统应该如何搭建啊?
4. 排序策略与效果评估:基于深度兴趣网络的推荐排序策略,需要综合考虑用户的兴趣特征和行为数据。通过多维度的效果评估,可以不断优化排序策略,提升推荐系统的性能。第四部分:推荐系统的挑战与机遇 推荐系统在兴趣电商中的应用,面临着数据隐私、技术挑战和业务增长等多方面的挑战。同时,随着技术的不断...

推荐系统之用户画像
表2特征工程,典型的文本数据:网页->分词->去停用同->向量化。选择算法和模型考虑的因素:训练集的大小,特征的维度大小,所解决问题是否是线性可分的,所有的特征是独立的吗?需要不需要考虑过拟合的问题?对性能有哪些要求?选择算法和模型:LR,Ensemble方法。评估方法:混淆矩阵——PR,ROC,AUC。

推荐系统之用户画像
1)LR: 只要认为问题是线性可分的,就可采用LR 模型比较抗噪,而且可以通过L1、L2范数来做参数选择 效率高,可以应用于数据特别大的场景 很容易分布式实现 2)Ensemble方法 根据训练集训练多个分类器,然后综合多个分类器的结果,做出预测 评估方法:混淆矩阵——PR,ROC,AUC ...

岱岳区18892577456: 如何评价光伏电站的优劣 -
菜菲一静: 1、光伏电站评估的重要考核指标:A、电站交易的重要参考:PR值是对电站长期收益预测的关键指标,因此可作为电站收购前技术尽调的关键指标,PR测试系统也可帮助修正电站太阳能资源预测.B、运维考核指标:光伏电站发电量的高低,...

岱岳区18892577456: 如何评价一个推荐系统的性能好坏 -
菜菲一静: 我们把推荐当作是一个排名任务,这表示我们主要感兴趣的是一个相对较少的项,我们认为这些项最相关并把它呈现给用户.这就是众所周知的Top-k推荐.把它和评级预测做比较,如Netflix的竞赛.2007年,Yehuda Koren(此次比赛的一个胜...

岱岳区18892577456: 微生物培养基质控评定标准pr>0.5代表什么意思 -
菜菲一静: 微生物培养基的酸碱度、凝胶强度和选择性等直接影响到培养基的质量,在理化试验方法中采用连接可渗透陶器型液体接头的电极和平头电极或者连接微型探头的电极可分别测定液体和固体培养基的pH值 ,而采用 Gelometer和the LFRA Texture ...

岱岳区18892577456: 岗位评价的评价系统 -
菜菲一静: 岗位评价是一项系统工程,从整个评价系统来看,由评价指标、评价标准、评价技术方法和数据处理等若干个系统构成.这些子系统相互联系、相互衔接、相互制约,从而构成具有特定功能的有机整体.它不仅从属于企业劳动管理系统,而且从...

岱岳区18892577456: 绩效考评系统包括哪些基本要素 -
菜菲一静: 一个典型的绩效考评系统应包括评价主体、评价客体、评价目标、评价指标、评价标准、评价方法、评价报告等基本要素构成. 绩效考评系统各要素之间存在相互依存相互支持的关系具体表现在:评价目标是绩效考评系统的指南和目的它决定了...

岱岳区18892577456: 推荐系统算法 -
菜菲一静: 基 于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机 器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料. 在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象 的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度.用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等. 基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化.

岱岳区18892577456: 系统评价的标准简述 -
菜菲一静: (1)系统性原则.各指标之问要有一定的逻辑关系,它们不但要从不同的侧面反映出生态、经济、社会子系统的主要特征和状态,而且还要反映生态一经济一社会系统之间的内在联系.每一个子系统由一组指标构成,各指标之间相互独立,又彼此...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网