中心化、标准化、归一化?

作者&投稿:太穆 (若有异议请与网页底部的电邮联系)
~

图.左边是原始数据的分布情况、中间是经过中心化的分布情况、右边是经过标准化后的情况。图片来自知乎

说明:本文纯属胡说,没有加入严谨的数学推导,如有问题还请查看专业的书籍和博客文章

Zero-centered 或者 Mean-subtraction

中心化,就是把数据整体移动到以0为中心点的位置

将数据减去这个数据集的平均值。

例如有一系列的数值

计算平均值为 (1 + 3 + 5 + 7 + 9 )/ 5 = 5

数据变为

Standardization

把整体的数据的中心移动到0,数据再除以一个数。

在数据中心化之后,数据再除以数据集的标准差(即数据集中的各项数据减去数据集的均值再除以数据集的标准差)

再拿上面的数值举例

原始数据为

经过计算得到数据的标准差约为 σ = 2.8

标准化之后的结果为

Normalization

把数据的最小值移动到0,在除以数据集的最大值。

官方版

首先找到这个数据集的最大值 max 以及最小值 min ,然后将 max - min ,得到两个的差值 R ,也就是叫做 极差 ,然后对这个数据集的每一个数减去 min ,然后除以 R 。

民间版

这里你要是不记得中心化的话,先看一下中心化。然后开始,首先我们把数据仍然当做整体,然后把最小的点移动到0这个位置,然后回过头看计算公式是不是变了。由于 min 变成了 0 ,那么计算的公式就是 x / max' ,这里的 max' 是经过移动之后的数值。

还是拿上面的例子举例

首先用官方版的方式计算一下

原始数据

最大值 9 ,最小值 1 ,极差 9-1 = 8

接下来计算归一化后的数值

然后用民间版的方式计算一下

原始数据

按照整体把最小值移动到0,得到

然后除以最大值

可以看到,其实这个归一化还是那种计算小的占最大的比例。那么问题来了,那为什么不这样算呢?就是说不移动整体,直接把每一个数占据最大数的比例求出来不就行了吗?

也就是这样:

额,说实话,这里我觉得没什么不妥当,同样也是将数据收缩在 0~1 的范围内,但是我换了个数据好像就...

再拿一个数据

按照上面的计算,这里暂时简称为“简单除法法”

而使用归一化进行计算是这样的:

可以看到使用“简单除法法”进行计算得到的位于 0~1 范围内的数值没有经过归一化后的数据“拉得开”,好像腻乎在一块一样;同样是相对于某一数值的比例,使用归一化就不仅能将数据在收缩在 0~1 范围内,而且还让数据在这个范围内展开。这里不是太好想象为什么是这样?这样,我们打开 photoshop ,你没有看错,打开它

然后 文件 -> 新建 -> 确定 -> 新建一个图层 ,好,新建了一个,然后我们画一个方块, 矩形工具 -> 按住shift拖动 ->得到一个方块,然后 按住alt 对着方块拖动鼠标,直到拖出三个,然后按照下图所示的方式排列。

之后 按住ctrl 加选图层,把这三个方块的对应的图层都选中, 右键 -> 合并形状 。然后把三个方块拖到画布的右上角

按 ctrl + t ,可一看到在中心有一个点,这个点是变形时候的参考点,我们把点移动到 最下面这个方块 的左下角。然后把鼠标移动到缩放框的右上角 按住shift+alt 进行拖动,感受一下拖动的感觉;然后这个时候把大小还原,将那个中心点移动到这个 画布 的左下角,然后再次把鼠标移动到缩放框的右上角 按住shift+alt 进行拖动,感受一下拖动的感觉 。

中心化上面的过程我们看到了,相当于把数据 位移 了一下。在说这个之前,我们来玩一下 找不同 ,百度搜一下 找不同 ,我随便找了一张,我还记得这是朵拉,哈哈,你能快速找到不同吗?

这里有没有骚一点的操作呢?还记得上面的家伙吧你应该还没有关吧,进入 photoshop 。然后,现在你手上有 ps ,你怎么快速找不同呢?

我用 photoshop 把连在一起的两张图裁剪开,分别放到两个图层中。得到下面的图。

然后将两张图片叠在一起,就像这样,然后来回调整最上面一个图层的不透明度或者关闭打开最上面图层的眼睛,可以看到明显变化的位置就是不同啦!你可以试一下啊!

归一化、标准化可以说都是线性的,在 知乎 - 微调 的回答中,他通过公式的转变最后认为归一化、标准化很相似,都是 x + b / c 这样一种形式,具体的可以看参考中的知乎链接。对应到这篇文章中就可以这样做,你可以把那三个方块的中心点放到中心然后拖动缩放框进行缩放就是标准化啦。在说归一化、标准化的作用之前,首先来看一句话

看这句话我就想起了我们和宇宙的“体型”的极大悬殊,宇宙浩瀚无垠,极其庞大;沙粒,微乎其微,极其渺小。另外除了上面这句话之外,还有“一花一世界,一叶一菩提”也比较常听到,这种“以小见大”的境界其实有一种理论模型的说法,我记得在一些初高中的化学或者物理课本上都画有原子图,中心一个原子核,然后又三个电子围绕着中心旋转,我相信很多人脑子里只要有过太阳系和这幅原子图的映像后会将它们联系起来。

原子 的半径为 10^(-10) m ,太阳系的半径为 6*10^(12)m ,它们的“体型”的差别用“天壤之别”似乎也不够,但是这种内部的“运转”形式又是如此的相似,难道说我们这个世界存在着一种特殊的规律?其实之前就有人提出过一个观念,叫做 分形宇宙(Fractal Universe) 。

这个是混沌动力学里面研究的一个饶有兴趣的课题,它给我们展现了复杂的结构如何在不同层面上一再重复。所谓的分形宇宙也只是一家之言罢了。

读到这里,你的脑海中是不是已经浮现出了一个“小宇宙”、“大原子”呢?你的脑子是不是进行了一次归一化或者说标准化的过程呢?

最近回过头来看看之前写的,没有特别说明其中归一化与标准化的中的差别。另外也发现标准化与归一化的形式还不单单只是一种。

说明:公式截取自 机器学习中的特征缩放(feature scaling)浅谈

可以看到最前面两种(Rescaling 和 Mean normalisation)与前面说到的归一化是相似的,我觉这里这两个可以归为一类。

它们的分母是是一样的,都是 max(X) - min(X) ,也就是说它们以自己内部的最大的差距最为分母,但是分子不一样,分别是 x - min(X) 和 x - mean(X) ,这是个什么意思呢?

这里的 x - mean(X) 就是之前说到的 中心化

因为分母相同,这里先暂时不管分母。

假如有六个点,在每条路上都一条标杆,这里我们来计算一下每一个距离标杆的长度

以 x - min(X) 计算距离

以 x - mean(X) 计算距离

通过图来看, x - min(X) 中的 min(X) , x - mean(X) 中的 mean(X) 是两幅图中各自的标杆,如果移动这条标杆的位置就可以互相转换。所以这两个是相似的。但是我们可以看到,第一种得到的数值均为 正数 ,但是第二种是有 正负值的 ,分布于均值两侧。

那么第三种呢?这个对应到上面我们说到的标准化的东西。但是与上面归一化有什么差别呢?

我们拿第二种(Mean normalisation)与第三种(Standardization )进行对比会比较好理解,这两个的分子都是相同的,但是分母不同,前者是 max(X) - min(X) (也就是极差),后者是 std(X) (也就是标准差),我们看看这两者的计算方式的特点

如果说数据存在特别大的或者特别小的数据的时候,归一化可能会导致数据黏糊在一起的情况(因为归一化的分母始终是数据中距离最大的点的距离),但是标准化(不仅仅会考虑单个极其特别的点,其他的点都会考虑,得到)出现这种情况会好一些(特别是数据量较大的情况下可能会抹除奇异值的影响)。

另外,归一化求得的数值最后会在 [-1, 1] 之间,而标准化不一定,有可能会大于 1 或者小于 -1 。

中间如果有错误,望能告知。

版权声明 :本文采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。




不要把归一化和标准化混为一谈
在使用梯度下降的方法求解最优化问题时, 归一化\/标准化后可以加快梯度下降的求解速度,即提升模型的收敛速度。所以像之前提到的线性回归、逻辑回归、神经网络等使用梯度下降法求解最优参数的算法,输入数据需要做归一化\/标准化处理,提升模型收敛速度。一些算法需要计算样本之间的距离(如欧氏距离),例如KNN、...

归一化(MinMax)和标准化(Standard)的区别
探索归一化与标准化:机器学习中的关键步骤 在数据预处理的广阔领域中,归一化(MinMax)和标准化(Standardization)是两种常见的数据规范化方法。它们在本质上都是为了提升算法性能和模型的稳定性,但各有侧重。归一化:数据的边界压缩 归一化,通过将数据值缩放到0到1的范围内,公式为 min(x) \/ (...

标准化和归一化的区别是什么
1. 标准化处理数据的方式是针对特征矩阵的列进行的。它通过计算z-score,将每个特征值转换到具有相同量纲的尺度上。2. 归一化则是针对特征矩阵的行进行处理。这种方法确保在计算样本向量的点积或其他核函数时,所有特征都遵循统一的标准化标准,即每个特征值都被转换成“单位向量”。3. 归一化的一个...

标准化和归一化
在数据预处理的领域,标准化和归一化是两种关键的规范化方法,它们旨在优化数据分析的效率和精度。尽管两者有时被混淆,但它们的本质和应用有所不同。标准化,也称为Z-score标准化,其目标是将数据调整至均值为0,标准差为1的分布。具体计算过程如公式所示:[公式]。这种处理方法有助于消除数据间的尺度...

先归一化还是先标准化
一般来说,数据处理的先后顺序应该是:先进行归一化,再进行标准化。原因是,归一化可以将数据的数值范围缩放到统一的区间内,使得不同尺度的特征具有可比性,便于算法进行处理。而标准化则是将数据转化为平均值为0,方差为1的标准分布,可以消除不同特征之间的量纲差异,降低噪声和异常值的影响,使数据...

如何评价2024深圳杯(东北三省)数学建模?
在数学建模中,数据预处理至关重要,包括异常值处理、缺失值处理、量纲化处理及数据编码和标签。异常值处理通常采用描述分析法、聚类、KNN或图示法,异常值可能被设置为null值、平均值、中位数、众数、随机数等填充。缺失值处理方式有删除记录、直接分析、线性插值和趋势插值。量纲化处理分为标准化、归一...

几种常见的数据标准化的方法总结
比如聚类分析时,其内部算法原理在于距离大小来衡量数据间的聚集关系,因此默认SPSSAU会选中进行标准化处理。除此之外,还有一些特殊的研究方法,比如社会学类进行中介作用,或者调节作用研究时,也可能会对数据进行标准化处理。(2) 归一化 归一化 的目的是让数据压缩在【0,1】范围内,包括两个边界数字0...

归一化是什么意思
归一化是指将数据转化为某种特定的范围或标准的过程,以便能够进行有效地比较、分析或处理。归一化的目的是消除数据之间的量纲和差异,使得数据在计算或模型建立过程中具有统一的尺度。常见的归一化方法包括线性变换、最大最小值归一化、标准化等。通过归一化处理,可以使得数据更加可靠地进行比较,避免数据...

标准化和归一化
在数据预处理的舞台上,标准化和归一化是两位不可或缺的调整者,它们分别通过改变数据的尺度来提升分析的精度和稳定性。尽管时常被混淆,它们却各有其独特的方法和目的。让我们深入了解它们。首先,标准化,如同一位艺术家的手法,将数据雕刻成零均值和单位方差的杰作。这通常通过Z-score标准化实现,公式...

数据预处理中数据转化方法有
数据预处理中数据转化方法有标准化、归一化、离散化、对数变换、标准化和规格化、平滑处理等等。1、标准化 将数据转化为标准化的形式,通常是将数据减去均值并除以标准差,使得数据分布在均值为0、标准差为1的正态分布中。2、归一化 将数据缩放到0—1的范围内,使得不同尺度的数据具有相同的量纲。3、...

缙云县19769144086: 定量PCR数据分析中,标准化和归一化是怎样进行的 用内参基因标准化时为什么要用几何平均 谢谢 -
鄂元复方: 归一化,就是一般把对照组的基因表达水平设为一,实验组的变化则表达为对照组的倍数.标准化也是一个意思.均数的计算参见我对你另外几个问题的回答.有具体问题再问.

缙云县19769144086: 数据归一化,标准化? -
鄂元复方: 标准化是指在执行过程中,不同的执行人参考同样的流程,同样的方法进行.以避免因为人的因素导致的数据差. 归一化是指建立共享平台,所得到的数据资料统一归档并对需要的人开放.以避免需要的人再去重复收集数据浪费人力时间. 补充一点:标准化是指过程,归一化是针对结果,只有共同作用才能得到合理,科学的结果

缙云县19769144086: 请教矩阵的中心化和标准化具体是指什么 -
鄂元复方: 这样就给处理成均值为0、均值为1的数据. 如果数据服从正态分布,则结果就成了标准正态分布.

缙云县19769144086: 数据什么时候需要做中心化和标准化处理 -
鄂元复方: 数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差. 数据标准化是指:数值减去均值,再除以标准差;所谓中心化,是指变量减去它的均值.

缙云县19769144086: 在使用BP神经网络时 数据进行标准化或归一化有什么区别吗
鄂元复方: 归一化,就是为了限定你的输入向量的最大值跟最小值不超过你的隐层跟输出层函数的限定范围.比如,你的隐层的传递函数为logsig,那么你的输出就在0~1范围内,如果你的传递函数为tansig,你的隐层的输出在-1~·范围内,用归一化,这也是为了你的隐层传递函数的输出着想. 标准化,只是对数据进行了统一的标准,其大小可能已经超出了隐层传递函数的界定范围,在后续的运行时,容易出错.

缙云县19769144086: 急问!spss主成分回归分析后,要把标准化后的数据还原用来求原方程式,怎么求啊!? -
鄂元复方: 用得到的print值做因变量,用原始数据做自变量.然后线性回归,所得到的回归系数就是线性组合的系数,然后做的回归相当于一个线性方程组,然后就可以还原成主成分回归方程了. Logistic回归主要分为三类,一种是因变量为二分类得...

缙云县19769144086: 向量 标准化就是单位化吗 -
鄂元复方: 先求矩阵的最大特征值,然后将对应特征向量标准化 w=-w/sum(abs(w))那么一般对向量的单位化是做:w=w/sum(w.^)这里所谓的标准化实际上是做了一个归一化,就是使得做完了以后加起来变成,通常归一化的方法就是直接把向量的每个元素除

缙云县19769144086: 在数据挖掘过程中,好像有些算法要求变量必须是正太分布的,我想知道什么时候需要对数据进行标准化处理? -
鄂元复方: 标准化/归一化都是对变量进行scale的数据预处理基本方法,是否采用或采用哪种,完全取决于你使用的数据分析处理算法的需求. 此类预处理主要有两个目的,一是使变量间尺度接近,避免出现计算误差或影响如距离之类度量的均衡性.二是使各变量值或样本矢量的度量值在算法要求的区间内. 至于正态分布性,一般是算法的适用假设,应该在算法应用前或后做此检验以保证可靠性,而不是要求用什么变换方法把数据处理成正态分布.如误差的正态分布假设是回归无偏的基本条件,或某些基于类簇是正态分布的聚类算法只有在问题确实符合这种模式下才能得到正确结果. 当然,如果仅仅要将特定分布数据转换成另一种分布还是有办法的.但用途应该比较特殊.

缙云县19769144086: 何为数据要中心化和标准化?其目的是什么? -
鄂元复方: 1.我不知道你指的是EDI 是船公司的EDI系统 还是海关的EDI 其实归根到底就是发送货物信息的系统 2.集装箱码头公司网站可以查到很信息啊~比如进口的话 你可以查到船几时能靠 等船靠港后 你还能查询货物滞留港区的时间之类 出口的话也可以查船几时开~~

缙云县19769144086: 描述粒子运动的波函数的物理意义是什么,波函数需要满足的标准化条件是什么,其归一化条件是什么 -
鄂元复方:[答案]1、为了定量地描述微观粒子的状态,量子力学中引入了波函数,并用ψ表示.一般来讲,波函数是空间和时间的函数,并且是复函数,即ψ=ψ(x,y,z,t).2、标准化条件:单值, 连续 ,有限(平方可积). 归一化不...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网