缺失值处理

作者&投稿:郎帜 (若有异议请与网页底部的电邮联系)
~  缺失数据 

1 缺失值的统计和删除 

1.1 缺失信息的统计

缺失数据可以使用 isna 或 isnull (两个函数没有区别)来查看每个单元格是否缺失,通过和 sum 的组合可以计算出每列缺失值的比例。

如果想要查看某一列缺失或者非缺失的行,可以利用 Series 上的 isna 或者 notna 进行布尔索引。例如,查看身高缺失的行:

如果想要同时对几个列,检索出全部为缺失或者至少有一个缺失或者没有缺失的行,可以使用 isna, notna 和any, all 的组合。例如,对身高、体重和转系情况这 3 列分别进行这三种情况的检索

1.2 缺失信息的删除

数据处理中经常需要根据缺失值的大小、比例或其他特征来进行行样本或列特征的删除,pandas 中提供了dropna 函数来进行操作。

dropna 的主要参数为轴方向 axis (默认为 0,即删除行)、删除方式 how 、删除的非缺失值个数阈值 thresh(非缺失值没有达到这个数量的相应维度会被删除)、备选的删除子集 subset ,其中 how 主要有 any 和 all两种参数可以选择。

2 缺失值的填充和插值 

2.1 利用 fillna 进行填充 

在 fillna 中有三个参数是常用的:value, method, limit 。其中,value 为填充值,可以是标量,也可以是索引到元素的字典映射;method 为填充方法,有用前面的元素填充 ffill 和用后面的元素填充 bfill 两种类型,limit 参数表示连续缺失值的最大填充次数。

2.2 插值函数 

在关于 interpolate 函数的 文档 描述中,列举了许多插值法,包括了大量 Scipy 中的方法。由于很多插值方法涉及到比较复杂的数学知识,因此这里只讨论比较常用且简单的三类情况,即线性插值、最近邻插值和索引插值。

对于 interpolate 而言,除了插值方法(默认为 linear 线性插值)之外,有与 fillna 类似的两个常用参数,一个是控制方向的 limit_direction ,另一个是控制最大连续缺失值插值个数的 limit 。其中,限制插值的方向默认为 forward ,这与 fillna 的 method 中的 ffill 是类似的,若想要后向限制插值或者双向限制插值可以指定为 backward 或 both

关于 polynomial 和 spline 插值的注意事项

在 interpolate 中 如 果 选 用 polynomial 的 插 值 方 法, 它 内 部 调 用 的 是scipy.interpolate.interp1d(*,*,kind=order) , 这 个 函 数 内 部 调 用 的 是 make_interp_spline方法,因此其实是样条插值而不是类似于 numpy 中的 polyfit 多项式拟合插值;而当选用 spline方法时,pandas 调用的是 scipy.interpolate.UnivariateSpline 而不是普通的样条插值。这一部分的文档描述比较混乱,而且这种参数的设计也是不合理的,当使用这两类插值方法时,用户一定要小心谨慎地根据自己的实际需求选取恰当的插值方法。

3 Nullable 类型

3.1 缺失记号及其缺陷

在 python 中的缺失值用 None 表示,该元素除了等于自己本身之外,与其他任何元素不相等:

在 numpy 中利用 np.nan 来表示缺失值,该元素除了不和其他任何元素相等之外,和自身的比较结果也返回False

值得注意的是,虽然在对缺失序列或表格的元素进行比较操作的时候,np.nan 的对应位置会返回 False ,但是在使用 equals 函数进行两张表或两个序列的相同性检验时,会自动跳过两侧表都是缺失值的位置,直接返回 True :

在时间序列的对象中,pandas 利用 pd.NaT 来指代缺失值,它的作用和 np.nan 是一致的

那么为什么要引入 pd.NaT 来表示时间对象中的缺失呢?仍然以 np.nan 的形式存放会有什么问题?在 pandas中可以看到 object 类型的对象,而 object 是一种混杂对象类型,如果出现了多个类型的元素同时存储在 Series中,它的类型就会变成 object

NaT 问题的根源来自于 np.nan 的本身是一种浮点类型,而如果浮点和时间类型混合存储,如果不设计新的内置缺失类型来处理,就会变成含糊不清的 object 类型,这显然是不希望看到的。

同时,由于 np.nan 的浮点性质,如果在一个整数的 Series 中出现缺失,那么其类型会转变为 float64 ;而如果在一个布尔类型的序列中出现缺失,那么其类型就会转为 object 而不是 bool

因此,在进入 1.0.0 版本后,pandas 尝试设计了一种新的缺失类型 pd.NA 以及三种 Nullable 序列类型来应对这些缺陷,它们分别是 Int, boolean 和 string 。

3.2 Nullable 类型的性质

从字面意义上看 Nullable 就是可空的,言下之意就是序列类型不受缺失值的影响。例如,在上述三个 Nullable类型中存储缺失值,都会转为 pandas 内置的 pd.NA

在 Int 的序列中,返回的结果会尽可能地成为 Nullable 的类型

对于 boolean 类型的序列而言,其和 bool 序列的行为主要有两点区别:

第一点是带有缺失的布尔列表无法进行索引器中的选择,而 boolean 会把缺失值看作 False

第二点是在进行逻辑运算时,bool 类型在缺失处返回的永远是 False ,而 boolean 会根据逻辑运算是否能确定唯一结果来返回相应的值。那什么叫能否确定唯一结果呢?举个简单例子:True | pd.NA 中无论缺失值为什么值,必然返回 True ;False | pd.NA 中的结果会根据缺失值取值的不同而变化,此时返回 pd.NA ;False& pd.NA 中无论缺失值为什么值,必然返回 False 。

3.3 缺失数据的计算和分组

当调用函数 sum, prob 使用加法和乘法的时候,缺失数据等价于被分别视作 0 和 1,即不改变原来的计算结果

当使用累计函数时,会自动跳过缺失值所处的位置:

当进行单个标量运算的时候,除了 np.nan ** 0 和 1 ** np.nan 这两种情况为确定的值之外,所有运算结果全为缺失(pd.NA 的行为与此一致),并且 np.nan 在比较操作时一定返回 False ,而 pd.NA 返回 pd.NA

另外需要注意的是,diff, pct_change 这两个函数虽然功能相似,但是对于缺失的处理不同,前者凡是参与缺失计算的部分全部设为了缺失值,而后者缺失值位置会被设为 0% 的变化率

对于一些函数而言,缺失可以作为一个类别处理,例如在 groupby, get_dummies 中可以设置相应的参数来进行增加缺失类别:

4 练习 

4.1 Ex1:缺失值与类别的相关性检验

.4.2 Ex2:用回归模型解决分类问题


如何处理缺失值
首先,最简单直接的处理方法是删除含有缺失值的记录。这种方法在缺失值数量相对较少,且对整体数据分布影响不大的情况下是可行的。例如,在进行问卷调查分析时,如果只有少数几个受访者的年龄信息缺失,删除这些记录可能不会对结果造成显著影响。然而,当缺失值比例较大时,删除法可能会导致大量有用信息的...

缺失值的处理方法有哪些?
均值替换法是一种简便、快速的处理方法,对变量均值估计无影响,但假设数据完全随机缺失,可能改变变量方差和标准差。3. 热卡填充法(Hotdecking)热卡填充法在数据库中寻找与缺失值最相似的值来填充缺失。常见的是使用相关系数矩阵确定哪个变量与缺失值所在变量最相关,然后根据这个变量的取值填充缺失值。与...

处理缺失值的四种方法
1. 删除法 当数据集中存在缺失值时,最直接的处理方式就是删除含有缺失值的记录。这种方法简单易行,但可能会导致数据集变小,影响后续分析的有效性和精度。通常适用于缺失值样本量较大的情况。需要注意的是,这种方法可能会使数据集产生偏差,特别是在缺失值分布不均的情况下。因此,在使用删除法时,...

缺失值的处理方法有哪些?
1. 个案剔除法(Listwise Deletion)这是处理缺失数据的一种常见且简单的方法,许多统计软件如SPSS和SAS都将其作为默认处理方式。此方法的步骤是直接删除包含缺失值的完整案例。2. 均值替换法(Mean Imputation)当某个变量非常重要且缺失数据量较大时,个案剔除法可能不再适用,因为这样会删除许多有用的数...

处理缺失值的四种方法
处理缺失值的四种方法:1、删除含有缺失值的个案 主要有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来...

如何处理缺失值?
忽略有缺失的观测个体。后者是指用缺失之前的最后一次观测值直接替换缺失值,多用于纵向观察研究的数据处理。R语言处理的缺失值 简单缺失值处理方法及缺陷 相对于复杂的缺失值处理方法此处的简单方法目的在于获得一个完整的数据集,然后对该数据集进行预定的分析处理。如同缺失值根本未发生一样。然而这种处理...

缺失值的处理方法有哪些?
(一)个案剔除法(Listwise Deletion)。最常见、最简单的处理缺失数据的方法是用个案剔除法(listwisedeletion),也是很多统计软件(如SPSS和SAS)默认的缺失值处理方法。(二)均值替换法(Mean Imputation)。在变量十分重要而所缺失的数据量又较为庞大的时候,个案剔除法就遇到了困难,因为许多有用的...

数据清理中,处理缺失值的方法是
1. 处理缺失值的整体策略:处理缺失值的方法大体上可分为两种,即删除含有缺失值的个体案例和缺失值的插补。2. 主观数据的处理:对于主观数据,由于缺失值可能会影响数据的真实性,同时缺失值个体的其他属性真实值无法保证,因此基于这些属性值的插补也不可信。通常不推荐对主观数据使用插补方法。3. 客观...

在进行去重求和统计时,如何处理缺失值?
在进行去重求和统计时,处理缺失值的方法有以下几种:1.删除含有缺失值的数据:这是最简单的方法,直接将含有缺失值的数据删除。但是这种方法可能会导致数据的大量丢失,特别是当数据中缺失值较多时,可能会影响统计结果的准确性。2.用平均值或中位数代替缺失值:如果数据是连续的,可以用该列的平均值或...

数据清理中,处理缺失值的方法是
数据清理中,处理缺失值的主要方法包括删除含有缺失值的记录、插值法填补缺失值、使用均值或中位数等统计量替代,以及利用模型预测缺失值。首先,当数据集中的缺失值数量较少,且这些缺失值对整体数据分析影响不大时,一种简单直接的处理方法是删除含有缺失值的记录。这种方法适用于缺失数据对分析结果影响微...

武穴市18317128461: spss数据中缺失值处理方法 -
塞芬芎菊: 缺失值(missing data)大致上可分为三种型态,MNAR (missing not at random)指缺失值不是随机的,有可能是问卷的设计,比如说,年收入大于十万请回答A题,小于十万请回答B题,这类的缺失是设计上的,不能称作随机缺失.另一种叫MAR(...

武穴市18317128461: 如何使用SPSS处理缺失数据Missing Data -
塞芬芎菊: 对缺失值的处理 (1) 剔除有缺失值的观测单位, 即删除SPSS 数据列表中缺失值所在的数据行; 在SPSS 的统计分析程序中, 打开op t ions 按钮, 便会出现缺失值的处理栏(m issing values) , 可分别选择下列选项: exclude cases ...

武穴市18317128461: 如何替代缺失值 -
塞芬芎菊: 如果缺失值只占数据的5%不到,那么缺失值对数据的影响不大,各种缺失处理方式差异不大,简单点处理就好,比如均值填补,或者索性直接删除有缺失的个案,但均值填补无法利用缺失数据里面可能含有的有效信息,而删除个案有可能导致对数据的结构产生不利影响(比如绩效考核的时候不合格者没有成绩,形成缺失,这样删掉缺失就会让数据缺乏代表性,只有合格者,没有不合格者).相较于均值填补,回归填补法要更准确一些(这只限于并非大量缺失的情况,否则回归也会产生有偏的估计

武穴市18317128461: 几种常见的缺失数据插补方法 -
塞芬芎菊: (一)个案剔除法(Listwise Deletion) 最常见、最简单的处理缺失数据的方法是用个案剔除法(listwise deletion),也是很多统计软件(如SPSS和SAS)默认的缺失值处理方法.在这种方法中如果任何一个变量含有缺失数据的话,就把相对...

武穴市18317128461: 请问SPSS中缺失值应该怎样处理才可以在计算时被使用?谢谢! -
塞芬芎菊: 在分析框内的设置里,一般都有包含缺失值的选项,勾上就行了. 或者是format里有将缺失值看成什么,0还是空,显示成啥,自己选吧. 如果是高版本的,就直接在选项里.

武穴市18317128461: SPSS录入时缺失值的处理 -
塞芬芎菊: 去百度文库,查看完整内容>内容来自用户:愤怒的小燕spss数据录入时缺失值怎么处理 录入的时候可以直接省略不录入 分析的时候也一般剔除这样的样本.但也有替换的方法,一般有: 均值替换法(mean imputation),即用其他个案中该...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网