数据分析之风控

作者&投稿：尉迟全（若有异议请与网页底部的电邮联系）

~ 上世纪90年代初，以美国运通（Amarican Express）为首的美国信用卡金融公司开始运用数据建模来提升风控能力，解决精准营销等问题。Discover，Capital One紧随其后

1995年，AMEX的风控模型开始试运行，1997年风控系统正式上线，此后几年，AMEX保持高速增长且把不良贷款降到业内最低

2008年，discover将全球数据分析中心搬到上海。从这个中心流出的风控人才，填充了中国各大互金公司

业务类型：有抵押贷（房贷车贷）、信用贷（比如宜人贷）、消费分期贷（手机家电等）、小额现金贷（500/1000/1500）等

风控涉及业务：1）数据采集：包括征信数据，运营商数据，爬虫，网站埋点，历史借款数据，黑名单，第三方数据等

2）反欺诈引擎：主要包括反欺诈规则与反欺诈模型。

3）规则引擎：即常说的策略。主要通过数据分析手段统计不同字段和各个区间的坏账率，然后筛选得到信用较好的人群进行放款

4）风控模型&评分卡：模型算法之间并无显著不同，而是根据其发生的不同时间点进行划分(贷前/贷中/贷后)，即目标产生的方式不一样。通常信贷领域都是以逾期天数来定义目标变量。A卡可以用客户历史逾期天数最大值，B卡可以用多期借款中逾期最大的一次。C卡因为用途不同有不同的建立方法

5）催收：是风控的最终手段。这个环节可以产生很多对模型有帮助的数据，比如催收记录的文字描述，触达率，欺诈标签等等

1）爬虫可以爬取手机APP的信息。我们可以将手机APP分成4类：工具，社交、娱乐、金融。计算每种APP的个数，这样就有了4个特征

2）从运营商数据可以知道客户打了多少电话，发了多少短信，用了多少流量，是否有过欠费等信息

3）征信报告很多时候都是一个简单的征信分数，一般都是得分越高，客户质量越好

4）从基本信息中获取用户画像，比如从身份证中得到年龄、性别、户籍3个特征

黑名单的升级版本就是规则引擎。然而它是靠经验生成的。比如保险公司可能会拒绝连续退货5次或者退货比例达到80%的人购买退货险。规则通常需要投入大量的精力维护，不断更新修改，否则会造成大量的误判。对疑似套现金额、笔数超过一定数目，建议拒绝准入，或做重点关注。XX天内申请借贷数大于某个值，建议拒绝

比如我们可以设定一个准入规则，如职业为公务员、医生、律师等。

还可以设置直接放款原则，比如芝麻分大于750分

目标变量如何确定：以A卡为例，主要通过roll-rate与vintage。举个例子，我们可以定义在8个月逾期超过60天的客户为坏客户，8个月未逾期的为好客户。而八个月逾期在0-60天内为不确定客户，从样本中排除。

1）前期准备工作：不同的模型针对不同的业务场景，在建模项目开始前需要对业务的逻辑和需求有清晰的理解

2）模型设计：包括模型的选择（评分卡还是集成模型），单个模型还是做模型细分。是否需要做拒绝推断，怎么定义观察期、表现期、好坏用户。确定数据来源

3）数据拉取及清洗：根据观察期和表现期的定义从数据池中取数，并进行数据清洗和稳定性验证。数据清洗包括异常、缺失、重复。稳定性验证主要考察变量在时间序列上的稳定性，指标有PSI,IV,平均值/方差等

4）特征工程：主要是特征的预处理和筛选。评分卡主要是通过IV进行筛选。另外会基于对业务的理解进行特征构造，包括特征交叉（两个或以上特征相乘/相除/笛卡尔积），特征转换等

5）模型建立和评估：评分卡可以用逻辑回归，只需要做二分类预测可以选择xgb.模型建好后需要进行模型评估，计算auc,ks。并对模型做交叉验证来评估泛化能力

6）模型上线部署：在风控后台配置模型规则，对于一些复杂的模型比如xgb,一般是将模型文件转换为pmml格式，并封装。在后台上传文件与配置参数

7）模型监控：前期主要是监控模型整体与变量的稳定性。衡量标准主要是PSI（population stability index）。其实psi 就是按分数分区间后，各个分数区间实际与期望占比的差异。如果小于10%，无需更新模型。小于25%，就需要重点关注模型了。如果大于25%就需要更新模型。计算模型psi一般用等频，可以分10箱

1.A卡B卡C卡含义与区别

A卡（application score card）：即申请评分卡，在客户申请处理期，预测客户开户后一定时期内违约拖欠的风险概率，有效的排除了信用不良客户和非目标客户的申请。同时对客户进行风险定价----确定额度与利率。用到的数据主要是用户以往的信用历史，多头借贷，消费记录等信息。

B卡（behavior score card）：行为评分卡，在账户管理期，根据账户历史上所表现出的各种行为特征来预测该账户未来的信贷表现。一是防控贷中风险，二是对用户的额度做一个调整。用到的数据主要是用户在本平台的登录、浏览、消费行为等数据。还有借还款，逾期等借贷表现数据。

C卡（collection score card）：催收评分卡，对逾期账户预测催收策略反应的概率，从而采取相应的催收措施

三张卡的区别：

数据要求不同：A卡一般可做贷款0-1年的信用分析。B卡则是在申请人有了一定行为后，有了较大数据进行的分析。C卡则对数据要求更大，需加入催收后客户反应等属性数据

特征不同：A卡用到的大部分是申请者的背景信息，比如客户填写的基本信息，以及第三方信息。而且这个模型一般也会比较谨慎。B卡利用了很多基于交易的特征。

2.风控领域为何选择逻辑回归模型，有哪些局限性

1）首先是因为逻辑回归客群变化的敏感度不如其他高复杂度模型，因此稳健性好

2）模型直观，系数含义好阐述，易理解

缺点是容易欠拟合，准确度不是很高。另外对数据要求比较高，缺失、异常、特征共线性都比较敏感

3.为何用IV而不是WOE筛选特征

因为IV考虑了分组中样本比例的影响。即使这个分组的WOE很高，但是分组的样本占比很小的话，最终这个特征的预测能力可能还是很小

4.ROC与KS指标(ks在0.2-0.75，auc在0.5-0.9较好)

ROC曲线把TP,FP当作横纵坐标，而KS曲线把TP,FP都当成是纵坐标，横坐标是阀值。KS能找出模型中差异最大的一个分组，大于0.2即可认为有比较好的预测准确性。而ROC能反应整体区分效果

5.分箱方法与badrate单调

目前在行业里，大家用贪心算法进行分箱的比较多，比如best_ks,卡方分箱等。badrate单调性只在连续型数值变量与有序型离散变量（如学历/尺码）分箱的过程中才会考虑。至于为何要考虑badrate单调性，主要是出于业务理解，比如历史逾期越多那么badrate越大。

6.为何不同的风控模型，一般都不会选用相同的特征

被拒绝的人，是因为某些特征表现差。如果用相同的特征做重复筛选，那么随着时间推移，以后建模的样本里面就没有这些人了。这样特征上的样本分布就变了。

7.风控中用的无监督算法有哪些

聚类算法，基于图的离群检测，LOF(局部异常因子)，孤立森林等

8.卡方分箱

卡方分箱是基于合并的数据离散化方法.基本思想是相邻的区间具有类似的类分布,则将之合并.而卡方值是衡量两个区间相似性的标准,卡方值越低越相似.当然也不可能无限合并下去,我们给它设定一个阀值.根据自由度与置信度得到.比如类别数是N，那么自由度就是N-1.而置信度表示发生的概率。一般可以取90%。

9.best-ks分箱

与卡方分箱相反，best-ks分箱是一个逐步拆分的过程。将特征值从小到大排序，KS最大的那个值即为切点，然后把数据分为两部分。重复这个过程，直到箱体数达到我们的预设的阀值即可。

10.拒绝推断（reject inference）

申请评分卡是利用通过审核的授信客户的历史数据来建立模型，但是此模型会忽略原先被拒绝的这部分客群对评分卡模型的影响。需要通过拒绝推论来对模型进行修正，以便使模型更加的精确与稳定。另外，公司的规则变化也可能让过去被拒绝的客户现在能通过。适用于中低通过率的场景。

常用方法：硬性截断法---先用初始模型对拒绝用户进行打分，设置一个阀值。高于此分数标记为好用户，反之为坏用户。然后把标记后的拒绝用户加入样本中重新训练模型。分配法---此方法适用于评分卡。将样本根据评分高低进行分组，并计算各组的违约率。然后对拒绝用户进行打分并按照之前的方法分组，以各组的违约率为抽样比例，随机抽取该分组下的违约用户，指定为坏用户，剩下的标记为好用户。然后将标记好的拒绝用户加入样本重新训练

11.建模过程中如何保证模型的稳定性

1）在数据预处理阶段可以验证变量在时间序列上的稳定性，方法有：计算月IV的差异，观察变量覆盖率的变化，两个时间点的PSI差异等。例如我们选取1-10月的数据集，借鉴K折验证的思想，得到10组验证结果。观察随着月份的推移，模型的变化是否有比较大的趋势变化

2）在变量筛选阶段剔除与业务理解相悖的变量。如果是评分卡，可以剔除区分度太强的变量，模型受这个变量影响太大，稳定性会下降

3）做交叉验证，一种是时间序列上的交叉验证，一种是K折交叉验证

4）选择稳定性好的模型。比如xgb 随机森林等

12.怎么处理高维稀疏特征与弱特征

对于高维稀疏特征，逻辑回归比gbdt效果好。后者的惩罚项主要是树深度与叶子数目，这对稀疏数据来说惩罚并不严厉，容易过拟合。使用逻辑回归评分卡，则可以把特征离散化为0与非0，然后再进行woe编码。

如果用评分卡建模，弱特征一般会被舍弃掉。评分卡的入模特征数不宜过多，一般在15个以下。而xgb对数据的要求不高，而且精度好。一些弱特征进行交叉组合也许有意想不到的效果。

13.模型上线后发现稳定性不佳，或者线上的区分效果不好，怎么调整

模型稳定性不佳首先检查当初建模时有没有考虑特征的稳定性。在模型前期发现稳定性不佳的变量，考虑弃用或用其他变量代替。另外分析线上线下用户和建模时用户的分布差异，考虑在建模时增加拒绝推断的步骤，让建模样本的分布更加接近实际的整体申请用户

线上的效果不好可以从变量角度分析。剔除掉效果不好的变量，挖掘新的变量入模。如果一个模型已上线较长的时间，用户的属性也慢慢发生偏移，那么重新取数做下模型

14.怎么做风控模型冷启动

产品刚上线时，没有积累的用户数据，或者用户没有表现出好坏，此时可以考虑： 1）不做模型，只做规则。凭借业务经验，做一些硬性规则，比如设定用户的准入门槛，考量用户的信用历史与多头风险，可以接入第三方的反欺诈服务和数据产品的规则。也可以结合人工审核来对用户的申请资料做风险评估 2）借助相近模型的数据来建模。

15.样本不平衡问题

除了调整类权重以外，主要采用采样方法来解决。常见的有朴素随机过采样，SMOTE,ADASYN（自适应综合过采样）

16.运营商数据处理

根据通话日期，可以将通话记录分为近7天，近半月，近一月，近三月，近6月等时间窗口。也可以按具体日期划分为工作日、节假日等。根据通话时间，可以将一天划为凌晨、上午、下午、晚上。至于电话号码，一种思路是按照归属地划分为省市，另一种思路是对号码打标签，根据电话邦、百度手机卫士、搜狗号码通的标记，区分出快递外卖、骚扰电话、金融机构、中介等。甚至根据业务积累区分号码是否是黑名单用户、申请用户或申请被拒用户。用户与不同号码标签的通话情况，可以侧面反应用户的通话习惯和生活特点

17.逐步回归

当自变量之间的关系比较复杂，对于变量的取舍不易把握时，我们可以使用逐步回归的方法进行变量筛选。逐步回归的基本思想是将变量逐个引入模型，每引入一个变量进行F检验，并对已经选入的变量进行t检验，当原来引入的变量在后面的变量引入之后不再显著时，则将原来的变量删除。以确保每次引入引入新的变量之前回归方程中只包含显著性变量

18.在逻辑回归中，为什么常常要做特征组合（特征交叉）

逻辑回归属于广义线性模型，特征组合可以引入非线性特征，提升模型的表达能力

部分引用文章： https://www.jianshu.com/u/0ce0500106d https://new.qq.com/omn/20180115/20180115A0RUEZ.html https://www.ixueshu.com/document/6a3261ae85e489b8a3203036c687fe44318947a18e7f9386.html https://www.e-learn.cn/content/qita/775233 https://cloud.tencent.com/developer/article/144 8182 https://www.shangyexinzhi.com/article/details/id-171268/ https://blog.csdn.net/sunyaowu315/article/details/87162765 https://www.yuque.com/rookie-ywx0p/sm8coc/ll43oc https://zhuanlan.zhihu.com/p/56474197 https://www.infoq.cn/article/jXwvkaB9t7mPWHxj9ymu https://cloud.tencent.com/developer/article/1489429 https://cloud.tencent.com/developer/article/1059236 https://github.com/taenggu0309/Scorecard--Function

数据分析之风控
风控涉及业务:1)数据采集:包括征信数据,运营商数据,爬虫,网站埋点,历史借款数据,黑名单,第三方数据等 2)反欺诈引擎:主要包括反欺诈规则与反欺诈模型。 3)规则引擎:即常说的策略。主要通过数据分析手段统计不同字段和各个区间的坏账率,然后筛选得到信用较好的人群进行放款 4)风控模型&评分卡:模型算法之间并无显著不...

学什么做风控
一、风控基础知识风控即风险管理，是预防、识别、评估和应对潜在风险的一系列活动。在风控领域，你需要了解风险的基本概念、风险的分类、风险识别的方法和技巧等基础知识。此外，了解常见的风险管理工具和技术也是必不可少的。二、数据分析与建模能力在风控领域，数据分析与建模能力是核心技能之一。你需要...

银行数据分析进阶篇:银行业零售贷款营销与风控平衡分析
固原市的客户潜力较小，建议可考虑拓展新客户市场。通过分析贷款发放的业务类型、年龄、性别、贷款余额等维度，我们还发现了一些有趣的现象：男性客户的贷款余额普遍高于女性，且与职业、行内业务往来频率等因素密切相关。风控分析揭示了贷款通过率与逾期率的变化趋势。我们发现，五月份的通过率较低，尤其是1...

做风控需要什么要求
做风控需要的要求：一、专业知识和经验风控涉及到金融、统计、法律等多学科知识，包括但不限于数据分析、风险评估、审计和法律实务等。具有相关领域的工作经验者优先，能快速准确地进行风险评估和控制。二、技术和工具的运用能力风控需要熟练掌握数据分析、机器学习等技术在风险管理中的应用，熟练使用相关的...

风控是什么意思,多久会消除
信用卡风控解除所需要的时间会因情况的不同而有所不同，具体分析如下：（静香说卡A）1、如果只是频繁使用银行卡或银行卡状态异常导致被风控，那么通常24小时即可解除风控。2、若是因为有盗刷的嫌疑而风控，那么在证明了自己的信用卡并没有被套现或者盗刷后，银行基本上就会马上给解除风控的。3、如果是...

风控是什么意思多久会消除
风控，即风险控制，是指通过各种方法和手段，对潜在的风险进行识别、评估和控制，以降低风险发生的可能性和影响程度的一种管理过程。在金融领域，风控尤为重要，它涉及到信贷审批、投资决策等多个方面。关于风控记录的消除时间，通常情况下，金融机构会保留用户的信用记录一段时间，这个时间长度根据不同国家...

风控要做些什么
风控的主要工作内容包括：识别风险、评估风险、制定风险控制措施和监控风险。一、识别风险风控的首要任务是识别潜在的风险。这涉及收集和分析各种数据，包括财务报表、市场趋势、行业状况、经营状况等，以发现可能对企业造成损失的因素。通过广泛的数据收集，风控人员能够捕捉到各种风险的迹象。二、评估风险在...

风控措施有哪些
风控措施主要包括以下几个方面：一、事前控制事前控制主要涉及到风险评估、风险预警和预防措施的设定。具体而言，就是对可能出现的风险进行预测、评估和防范。这包括对潜在风险的识别和分析，例如，对企业的财务报表进行详细分析以预测未来的财务趋势；对于交易行为的信用评估以防止欺诈行为等。风险评估完成后...

风控是什么意
风控是指风险管理控制。风控是企业管理的重要环节之一，特别是在金融、投资、电商等领域中尤为重要。其主要目的是识别、评估和管理潜在的风险，以确保企业或项目的安全和稳定。下面详细介绍风控的相关内容。风控的核心在于识别风险。任何企业或个人在进行业务活动时都会面临各种风险，如市场风险、操作风险、信用...

风控是做什么的
风控是风险管理的一种手段，主要目的是识别、评估和管理潜在风险，以确保企业或组织的稳健运营。风控在企业和组织中扮演着至关重要的角色。其主要职责包括：识别风险。风控部门通过收集和分析数据，识别企业或组织面临的潜在风险。这些风险可能来自市场、操作、财务、技术等多个方面。评估风险。在识别风险后，...

信宜市15530972133： 大数据风控是怎么回事?一直没弄明白啊!？
贺常山香： 大数据风控就是大数据风险控制,是指通过运用大数据构建模型的方法对借款人进行风险控制和风险提示. 与原有人为对借款企业或借款人进行经验式风控不同,通过采集大量借款人或借款企业的各项指标进行数据建模的大数据风控更为科学有效.现在一些大的科技公司都会利用大数据风控来控制风险,例如当前比较热的浅橙科技公司,它就是典型的利用大数据风控的公司,它的“三体”的AI决策体系运用了逻辑判断、智能语音、可视化数据监控等方式,为贷前、贷中、贷后做技术支持,此体系能大幅提升效率,降低成本.

信宜市15530972133： 大数据风控有哪些优点?？
贺常山香： 风控是金融行业的核心业务,大数据风控是对多维度、大量数据的智能处理,批量标准化的执行流程,通过全方位收集用户的各项数据信息,并进行有效的建模、迭代,对用户信用状况进行评价,可以决定是否放贷以及放贷额度、贷款利率 .大数据风控更能贴合信息发展时代风控业务的发展要求;越来越激烈的行业竞争,也正是现今大数据风控如此火热的重要原因.比如浅橙科技,他们有自主研发的HAS风控体系,以风控技术、大数据应用技术为核心,搭建了大数据机器学习架构,能够用先进的人工智能和机器学习技术进行自主挖掘,迭代更新,为金融机构和用户提供更专业、更智能的服务.

信宜市15530972133： 常用的互联网金融大数据风控方式有哪些 - ？
贺常山香： 展开全部1:验证借款人信息验证借款人身份的五因素认证是姓名、手机号、身份证号、银行卡号、家庭地址.企业可以通过借助银联数据来验证银行卡号和姓名.其他的验证客户的方式包括让客户出示其他银行的信用卡及刷卡记录,或者验证...

信宜市15530972133： p2p平台风险控制一般都怎么做? ？
贺常山香： 目前国内的P2P平台风险控制主要是先组建相关的风控部门,主要包括政策和数据分析部、风控审核部、催收部,并明确各部门的主要职能.同时,用数据分析方式建立风控模型和决策引擎,根据客户的行为特征等各方面数据来判断借款客户的违约风险.

信宜市15530972133： 小贷风控怎么做? - ？
贺常山香： 近年来互联网信息技术和商业需求的共同推动下,大数据风控和征信体系日益受到重视,以大数据、云计算为代表的技术发展,使得海量数据的采集和深入挖掘逐步成熟,驱动了征信新模式的出现,这也为小贷风控提供了新的契机.大数据不用...

信宜市15530972133： 消费金融中的大数据风控原理是什么? - ？
贺常山香： 原理其实并不复杂,传统的金融机构是通过人工逐个分析这些数据,效率低、成本高.现在依靠云计算,让计算机自动甚至主动收集、分析、整理各类征信数据,就可以提供更多的金融产品以及更便捷的金融服务.现在做大数据风控不错的提供风控与决策的有神州融,做评分的有FICO

信宜市15530972133： 大数据风控用了什么模型?有效性如何 - ？
贺常山香： 大数据风控同传统风控在本质上没有区别,主要区别在于风控模型数据输入的纬度和数据关联性分析.据统计,目前银行传统的风控模型对市场上70%的客户是有效的,但是对另外30%的用户,其风控模型有效性将大打折扣.大数据风控作为传统风控方式补充,主要利用行为数据来实施风险控制,用户行为数据可以作为另外的30%客户风控的有效补充.

信宜市15530972133： 互联网金融风控模型一般是如何搭建的? - ？
贺常山香： 风控模型是在良好的建立风控体系、风控评定方式、评分机制等基础上,进行有效的数据分析及评分体系,就是建立常用的风控模型方式.目前来看,国内的互联网金融平台搭建风控模型主要有两种方式:一是自己搭建,二是直接使用三方供应商.比如目前互联网金融公司广泛使用的杭州同盾的风控产品和服务.当然,更多的互联网金融公司都会选择将两者结合起来,优化模型,提升效果.

信宜市15530972133： 金融专业数据分析与风控专业哪个好 - ？
贺常山香： 现在风控很火,但是数据分析是基础. 建议基础内容,方便以后转型和深入学习.

信宜市15530972133： P2P平台有哪些风控模式 p2p风险管理模式分析 - ？
贺常山香： 风控模式对于任何一个P2P公司来说,风险控制都是不可能绕过的一道关口,长期来看,最终能生存下来的竞争者,必然在风控上有独到之处.那么到底有哪些风控模式?应该选择什么样的风控模式?这是每个立志在P2P行业里有所建树的公司...

你可能想看的相关专题

星空见康网

数据分析之风控

你可能想看的相关专题