特征工程之缺失值与离群值处理

作者&投稿：芷罗（若有异议请与网页底部的电邮联系）

离群值简单理解就是和大多数数据相差比较多的点。下面从两个方面

1.画图，非常直观

2.正态分布的3a原则
如果数据服从正态分布（如何看数据是否正态分布），如果值超过平均值的3倍标准差的值被认为离群值。如果不服从正态分布，则用偏离平均值多少倍来衡量。

3.箱型图识别异常值。利用数据中的五个统计量：最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法，它也可以粗略地看出数据是否具有有对称性，分布的分散程度等信息。
第一四分位数(Q1):表示全部观察值中有四分之一的数据取值比它小.
第三四分位数(Q3)，表示全部观察值中有四分之一的数据取值比它大；
IQR为四分位数间距，是上四分位数QU与下四分位数QL的差值，包含了全部观察值的一半。
如下图（来自百度经验）所示，如果值小于Q1-1.5 IQR，或者大于Q3 + 1.5 IQR，认为数据为异常值。

4.Z-score
Z-score又称为 标准分数 （Standard Score），可用来帮助识别异常值。Z-score的值求取如下：

建议将Z分数低于-3或高于3的数据看成是异常值。这些数据的准确性要复查，以决定它是否属于该数据集。计算Z值时需要“母体”的平均值和标准差，而不是“样本”的平均值和标准差。因此需要了解母体的统计数据资料。但是要确实了解母体真正的标准差往往是不切实际的。

离群值的处理和缺失值方式类似，可以把离群值当成缺失值处理。
1.删除
2.中位值或者均值
3.差值法
4.相似样本

参考文档
http://www.cnblogs.com/charlotte77/p/5606926.html

推荐系统之用户画像
数据清洗、缺失值处理与噪声数据。特征概述，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。特征是对所需解决问题有用的属性。特征的提取、选择和构造：针对所解决的问题选择最有用的特征集合。通过相关系数等方式来计算特征的重要性（人工筛选、算法（随机森林）、PCA自动降维）。特征...

机器学习算法工程师面试,有哪些比较经典的面试题分享?
面对机器学习算法工程师的面试,了解一些常见的面试题对于准备非常重要。以下是一些关于机器学习面试的常见考题,希望能帮助你做好准备。首先,你需要清晰地了解机器学习解决问题的基本流程。这通常包括以下几个步骤:明确问题的目标和需求,了解数据的来源和特性;进行数据预处理,包括数据清洗、缺失值处理、特征选择;选择合适的...

ai智能建模的流程ai智能建模的流程包括
智能建模的流程包括数据收集与预处理、特征工程、模型选择与训练、模型评估与调优以及模型部署与应用。首先，收集并清洗数据，处理缺失值和异常值。然后，进行特征工程，选择合适的特征并进行编码或转换。接下来，选择适当的模型算法，并使用训练数据进行模型训练。然后，使用测试数据对模型进行评估，并根据评估...

泰坦尼克号生存率预测
在特征工程阶段，她注意到名字蕴含的潜在信息，通过分解乘客姓名提取出如title等新变量。家庭成员数量的分析揭示了家庭规模对生存率的影响，家庭成员越少，幸存率越高。在处理缺失值时，她采用了合理的估算和预测插补策略，如基于票价和登船港口的推测，以及使用递归回归预测年龄。特征工程的第二轮，她创建...

npy表达异常是什么意思
npy是一种二进制文件格式，常用于存储多维数组数据。在数据分析和机器学习领域，我们可能会遇到各种数据处理异常，如缺失值、离群点等。为了更有效地处理数据异常，我们可以将数据处理结果保存为npy格式文件，并在后续分析和建模中使用。np.array()方法可以方便地将npy文件读入内存，进行数组操作。与文本文件...

变量分箱方法
变量分箱方法是一种在特征工程中用于提高模型预测能力和变量可解释性的技术，主要用于处理连续变量和稀疏离散变量。通过将变量值划分为不同箱（bin）或区间，可以降低异常值对模型稳定性的影响、减少缺失值填补的不确定性、增加变量可解释性、引入非线性关系，并最终提升模型预测效果。然而，变量分箱也存在...

一般机器学习算法分为哪几个步骤
一般机器学习算法的步骤包括以下几个阶段：1. 数据收集：这一阶段涉及从不同来源搜集所需的数据，如通过网络爬虫、传感器或数据库。数据的质量和多样性对模型的最终性能至关重要。2. 数据预处理：收集到的数据需要进行预处理，这包括数据清洗以处理缺失值和异常值，数据转换如标准化和归一化，以及特征工...

机器学习之决策树回归篇(DecisionTreeRegressor)
三.决策树的优缺点3.1决策树优点易于理解和解释，树可以画出来被看见需要很少的数据准备。其他很多算法通常都需要数据规范化，需要创建虚拟变量并删除空值等。sklearn中的决策树模块不支持对缺失值的处理。成本较低（比如说，在预测数据的时候）是用于训练树的数据点的数量的对数，相比于其他算法，是一...

分享一些数学建模美赛常用的模型英文对照
数据预处理是数学建模美赛中的关键步骤。主要包括缺失值处理与异常值处理。处理缺失值可采用插值填补、多重填补或使用特定算法如miceforest填补。异常值处理方法多样，可选择直接剔除、使用3σ盖帽法、四分位点法或绝对中位差算法。特征工程旨在提升模型性能。特征选择是核心，如方差选择法剔除方差小于阈值的...

丁八步法的四个技术要点
1.数据采集与准备：在进行机器学习任务之前，首先需要收集相关的数据，并对数据进行预处理。这包括数据的清洗、去除异常值、填补缺失值等操作。同时，还需要对数据进行探索性分析，了解数据的特征和分布情况。此外，还需要将数据划分为训练集、验证集和测试集，用于模型的训练和评估。2.特征工程与选择：特...

修水县17858062616： 如何用SPSS和Clementine处理缺失值,离群值,极值 - ？
郭崔乙肝： 我一般用两种方式一种是用频数分布然后看看这个变量的具体数值的分布是否有一些离群值另一种就是给变量排序看看两端有无异常值不过排序后CASE 顺序会被打乱如果你介意就在一开始录入数据的时候放入一个ID变量然后用那个一排列就恢复原状了

修水县17858062616： 如何用 Clementine处理缺失值 - ？
郭崔乙肝： 对于数据中出现的缺失值、离群值和极值,提供以下方法: 1、这些异常值可以全部删除,只留下完整、正常的数据; 2、对于缺失值,可以使用已有数据的平均值代替,或者用NULL等符号表示 3、对于离群值,要看分析内容.如果分析目的是监测异常为主,则重点考虑此类离群值,可能存在漏税、黑客攻击、赖账等问题.如果分析群体共性问题,则可以删除; 4、对于极值,可要考虑其范围;因为极值可能是准确的点,也有可能是异常点;

修水县17858062616： 请教关于离群值的处理问题 - ？
郭崔乙肝： 我们在分析数据的时候,经常会碰到某些数据远远大于或小于其他数据,这些明显偏离的数据就是离群值,也叫奇异值、极端值.离群值产生的原因大致有两点: 1.总体固有变异的极端表现,这是真实而正常的数据,只是在这次实验中表现的...

修水县17858062616： 如何清除离群值 - ？
郭崔乙肝： 观测值的数量没有一个具体的要求,一般越多拟合的结果越好(前提是没有出现离群值).如果出现离群值,由于回归是使方差最小,为了达到这一目标,拟合曲线会向离群值偏转一些,以减小预测的方差,这样就会影响系数.

修水县17858062616： 如何判断和处理离群点 - ？
郭崔乙肝： 用残差分析,常用标准化残差图,以本人未在正负3个标准差意外区域出现的点为离群点,正负2个标准差以外为可能离群点.

修水县17858062616： 离群数据简述 - ？
郭崔乙肝： 离群值所谓离群值(outlier)是指在不能数据中有一个或几个数值与其他数值相比差异较大.医学实验中经常会有出现离群值的情况,究竟是由于随机涨落引起的,还是由于某些确定因素造成的,有时难以判断,如果处理不好将会引起较大的系...

修水县17858062616： 怎样学好大学的统计学?？
郭崔乙肝： 统计学的领域 ——写给在统计学院学习的学弟学妹如果学了几年统计,还连统计的... 空着调查项目不填写的我们称之为缺失值(Missing Value),胡乱填写的可能成为离...

修水县17858062616： 异常值的检测方法有(). - 上学吧？
郭崔乙肝： 数据离群(可疑)值的判断常用的有:Q检验、4d法则、格拉布斯准则、迪克逊准则数据评价——显著性检验常用的有:F检验——两组数据间精密度评价;t检验——两组数据平均值一致性评价(也可用于测定结果与标准值的一致性评价).

你可能想看的相关专题

星空见康网

特征工程之缺失值与离群值处理

你可能想看的相关专题