标准化与去中心化
A. 何为数据中心化和标准化其目的是什么
呵呵,同是山大的飘过...
希望今天统计不挂科
我找到的答案是 中心化是数据减去他们的均值
标准化是中心化的数据除以标准差
目的是消除不同变量间犹豫量纲,自身变异,数值大小带来的影响
B. 中心化、标准化、归一化
图.左边是原始数据的分布情况、中间是经过中心化的分布情况、右边是经过标准化后的情况。图片来自知乎
说明:本文纯属胡说,没有加入严谨的数学推导,如有问题还请查看专业的书籍和博客文章
Zero-centered 或者 Mean-subtraction
中心化,就是把数据整体移动到以0为中心点的位置
将数据减去这个数据集的平均值。
例如有一系列的数值
计算平均值为 (1 + 3 + 5 + 7 + 9 )/ 5 = 5
数据变为
Standardization
把整体的数据的中心移动到0,数据再除以一个数。
在数据中心化之后,数据再除以数据集的标准差(即数据集中的各项数据减去数据集的均值再除以数据集的标准差)
再拿上面的数值举例
原始数据为
经过计算得到数据的标准差约为 σ = 2.8
标准化之后的结果为
Normalization
把数据的最小值移动到0,在除以数据集的最大值。
官方版
首先找到这个数据集的最大值 max 以及最小值 min ,然后将 max - min ,得到两个的差值 R ,也就是叫做 极差 ,然后对这个数据集的每一个数减去 min ,然后除以 R 。
民间版
这里你要是不记得中心化的话,先看一下中心化。然后开始,首先我们把数据仍然当做整体,然后把最小的点移动到0这个位置,然后回过头看计算公式是不是变了。由于 min 变成了 0 ,那么计算的公式就是 x / max' ,这里的 max' 是经过移动之后的数值。
还是拿上面的例子举例
首先用官方版的方式计算一下
原始数据
最大值 9 ,最小值 1 ,极差 9-1 = 8
接下来计算归一化后的数值
然后用民间版的方式计算一下
原始数据
按照整体把最小值移动到0,得到
然后除以最大值
可以看到,其实这个归一化还是那种计算小的占最大的比例。那么问题来了,那为什么不这样算呢?就是说不移动整体,直接把每一个数占据最大数的比例求出来不就行了吗?
也就是这样:
额,说实话,这里我觉得没什么不妥当,同样也是将数据收缩在 0~1 的范围内,但是我换了个数据好像就...
再拿一个数据
按照上面的计算,这里暂时简称为“简单除法法”
而使用归一化进行计算是这样的:
可以看到使用“简单除法法”进行计算得到的位于 0~1 范围内的数值没有经过归一化后的数据“拉得开”,好像腻乎在一块一样;同样是相对于某一数值的比例,使用归一化就不仅能将数据在收缩在 0~1 范围内,而且还让数据在这个范围内展开。这里不是太好想象为什么是这样?这样,我们打开 photoshop ,你没有看错,打开它
然后 文件 -> 新建 -> 确定 -> 新建一个图层 ,好,新建了一个,然后我们画一个方块, 矩形工具 -> 按住shift拖动 ->得到一个方块,然后 按住alt 对着方块拖动鼠标,直到拖出三个,然后按照下图所示的方式排列。
之后 按住ctrl 加选图层,把这三个方块的对应的图层都选中, 右键 -> 合并形状 。然后把三个方块拖到画布的右上角
按 ctrl + t ,可一看到在中心有一个点,这个点是变形时候的参考点,我们把点移动到 最下面这个方块 的左下角。然后把鼠标移动到缩放框的右上角 按住shift+alt 进行拖动,感受一下拖动的感觉;然后这个时候把大小还原,将那个中心点移动到这个 画布 的左下角,然后再次把鼠标移动到缩放框的右上角 按住shift+alt 进行拖动,感受一下拖动的感觉 。
中心化上面的过程我们看到了,相当于把数据 位移 了一下。在说这个之前,我们来玩一下 找不同 ,网络搜一下 找不同 ,我随便找了一张,我还记得这是朵拉,哈哈,你能快速找到不同吗?
这里有没有骚一点的操作呢?还记得上面的家伙吧你应该还没有关吧,进入 photoshop 。然后,现在你手上有 ps ,你怎么快速找不同呢?
我用 photoshop 把连在一起的两张图裁剪开,分别放到两个图层中。得到下面的图。
然后将两张图片叠在一起,就像这样,然后来回调整最上面一个图层的不透明度或者关闭打开最上面图层的眼睛,可以看到明显变化的位置就是不同啦!你可以试一下啊!
归一化、标准化可以说都是线性的,在 知乎 - 微调 的回答中,他通过公式的转变最后认为归一化、标准化很相似,都是 x + b / c 这样一种形式,具体的可以看参考中的知乎链接。对应到这篇文章中就可以这样做,你可以把那三个方块的中心点放到中心然后拖动缩放框进行缩放就是标准化啦。在说归一化、标准化的作用之前,首先来看一句话
看这句话我就想起了我们和宇宙的“体型”的极大悬殊,宇宙浩瀚无垠,极其庞大;沙粒,微乎其微,极其渺小。另外除了上面这句话之外,还有“一花一世界,一叶一菩提”也比较常听到,这种“以小见大”的境界其实有一种理论模型的说法,我记得在一些初高中的化学或者物理课本上都画有原子图,中心一个原子核,然后又三个电子围绕着中心旋转,我相信很多人脑子里只要有过太阳系和这幅原子图的映像后会将它们联系起来。
原子 的半径为 10^(-10) m ,太阳系的半径为 6*10^(12)m ,它们的“体型”的差别用“天壤之别”似乎也不够,但是这种内部的“运转”形式又是如此的相似,难道说我们这个世界存在着一种特殊的规律?其实之前就有人提出过一个观念,叫做 分形宇宙(Fractal Universe) 。
这个是混沌动力学里面研究的一个饶有兴趣的课题,它给我们展现了复杂的结构如何在不同层面上一再重复。所谓的分形宇宙也只是一家之言罢了。
读到这里,你的脑海中是不是已经浮现出了一个“小宇宙”、“大原子”呢?你的脑子是不是进行了一次归一化或者说标准化的过程呢?
最近回过头来看看之前写的,没有特别说明其中归一化与标准化的中的差别。另外也发现标准化与归一化的形式还不单单只是一种。
说明:公式截取自 机器学习中的特征缩放(feature scaling)浅谈
可以看到最前面两种(Rescaling 和 Mean normalisation)与前面说到的归一化是相似的,我觉这里这两个可以归为一类。
它们的分母是是一样的,都是 max(X) - min(X) ,也就是说它们以自己内部的最大的差距最为分母,但是分子不一样,分别是 x - min(X) 和 x - mean(X) ,这是个什么意思呢?
这里的 x - mean(X) 就是之前说到的 中心化 !
因为分母相同,这里先暂时不管分母。
假如有六个点,在每条路上都一条标杆,这里我们来计算一下每一个距离标杆的长度
以 x - min(X) 计算距离
以 x - mean(X) 计算距离
通过图来看, x - min(X) 中的 min(X) , x - mean(X) 中的 mean(X) 是两幅图中各自的标杆,如果移动这条标杆的位置就可以互相转换。所以这两个是相似的。但是我们可以看到,第一种得到的数值均为 正数 ,但是第二种是有 正负值的 ,分布于均值两侧。
那么第三种呢?这个对应到上面我们说到的标准化的东西。但是与上面归一化有什么差别呢?
我们拿第二种(Mean normalisation)与第三种(Standardization )进行对比会比较好理解,这两个的分子都是相同的,但是分母不同,前者是 max(X) - min(X) (也就是极差),后者是 std(X) (也就是标准差),我们看看这两者的计算方式的特点
如果说数据存在特别大的或者特别小的数据的时候,归一化可能会导致数据黏糊在一起的情况(因为归一化的分母始终是数据中距离最大的点的距离),但是标准化(不仅仅会考虑单个极其特别的点,其他的点都会考虑,得到)出现这种情况会好一些(特别是数据量较大的情况下可能会抹除奇异值的影响)。
另外,归一化求得的数值最后会在 [-1, 1] 之间,而标准化不一定,有可能会大于 1 或者小于 -1 。
中间如果有错误,望能告知。
版权声明 :本文采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。
C. 何为数据要中心化和标准化其目的是什么
数据标准化是指:数值减去均值,再除以标准差。
数据中心化是指:变量减去它的均值。
数据中心化和标准化在回归分析中的意义是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
D. SPSS进行中介效应分析用标准化和中心化的区别
1、中介效应分析不需要数据中心化和标准化;
2、强行中心化或中心化,只有非标准化系数不一样,标准化系是一样的。
(南心 提供)
E. 做调节效应分析一定要把自变量和调节变量做去中心化处理吗
不一定,中心化处理只不过是为了能够方便解释而已,并不会影响各项回归系数。
数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者是数值相差较大所引起的误差。数据中心化指的就是变量减去它的均值。数据标准化指的就是数值减去均值,再除以标准差。通过中心化和标准化处理,能够得到均值为0,标准差为1的服从标准正态分布的数据。在一些实际问题当中,我们得到的样本数据都是多个维度的,也就是一个样本是用多个特征来表征的。很显然,这些特征的量纲和数值得量级都是不一样的,而通过标准化的处理,可以使得不同的特征具有相同的尺度(Scale)。这样,在学习参数的时候,不同特征对参数的影响程度就一样了。简而言之,当原始数据不同维度上的特征的尺度(单位)不一致的时候,需要标准化步骤对数据进行预处理。数据预处理,一般有数据归一化、标准化以及去中心化。归一化:是将数据映射到[01]或[-11]区间范围内,不同特征的量纲不同,值范围大小不同,存在奇异值,对训练有影响。标准化:是将数据映射到满足标准正态分布的范围内,使数据满足均值是0标准差是1。标准化同样可以消除不同特征的量纲。去中心化:就是使数据满足均值为0,但是对标准差没有要求。如果对数据的范围没有限定要求,则选择标准化进行数据预处理;如果要求数据在某个范围内取值,则采用归一化;如果数据不存在极端的极大极小值时,采用归一化;如果数据存在较多的异常值和噪音,采用标准化。
F. spss实现中心化处理、标准化处理和归一化处理
转自https://blog.csdn.net/shouji111111/article/details/88675289
一、中心化、标准化、归一化简单描述
意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。
原理:
数据标准化:是指数值减去均值,再除以标准差;
数据中心化:是指变量减去它的均值;
归一化:把数变为(0,1)之间的小数。
二、中心化处理
数据的中心化是指原数据减去该组数据的平均值,经过中心化处理后,原数据的坐标平移至中心点(0,0),该组数据的均值变为0,以此也被称为零均值化。
三、标准化处理
大型数据分析项目中,数据来源不同,量纲及量纲单位不同,为了让它们具备可比性,需要采用标准化方法消除由此带来的偏差。 原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。这就是数据标准化。
基本原理:数值减去平均值,再除以其标准差,得到均值为0,标准差为1的服从标准正态分布的数据。
在SPSS中,使用最多的就是Z-score标准化(0-1标准化)方法,这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。
四、归一化处理
归一化方法:
把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速
把有量纲表达式变为无量纲表达式,成为纯量。归一化,也算是数据标准化方法之一。常见的计算公式如下,得到新数据范围在[0,1]之间,归一化由此得名。
G. 数据中心化和标准化在回归分析中的意义是什么
对数据中心化和标准化的目的是消除特征之间的差异性,可以使得不同的特征具有相同的尺度,让不同特征对参数的影响程度一致。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要中心化和标准化步骤对数据进行预处理。
(7)标准化与去中心化扩展阅读:
因为原始数据往往自变量的单位不同,会给分析带来一定困难,又因为数据量较大,可能会因为舍入误差而使计算结果并不理想。数据中心化和标准化有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。
回归分析中,通常需要对原始数据进行中心化处理和标准化处理。通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。
H. [转载]中心化(又叫零均值化)和标准化(又叫归一化)
https://blog.csdn.net/GoodShot/article/details/80373372
一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的?
1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction表示减去))处理和标准化(Standardization或Normalization)处理
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。原理:数据标准化:是指数值减去均值,再除以标准差;
数据中心化:是指变量减去它的均值。
目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。
2、(1)中心化(零均值化)后的数据均值为零
(2)z-score 标准化后的数据均值为0,标准差为1(方差也为1)
三、下面解释一下为什么需要使用这些数据预处理步骤。
在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。
下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。
其实,在不同的问题中,中心化和标准化有着不同的意义,
比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
· 对数据进行中心化预处理,这样做的目的是要增加基向量的正交性。
四、归一化
两个优点:
1)归一化后加快了梯度下降求最优解的速度;
2)归一化有可能提高精度。
1、 归一化为什么能提高梯度下降法求解最优解的速度?
如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是 [1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;而右图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛。因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。
2、归一化有可能提高精度
一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。
3、以下是两种常用的归一化方法:
1)min-max标准化(Min-MaxNormalization)
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
2)Z-score标准化(0-1标准化)方法
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。
转化函数为:
其中 为所有样本数据的均值, 为所有样本数据的标准差。
五、中心化(以PCA为例)
下面两幅图是数据做中心化(centering)前后的对比,可以看到其实就是一个平移的过程,平移后所有数据的中心是(0,0).
在做PCA的时候,我们需要找出矩阵的特征向量,也就是主成分(PC)。比如说找到的第一个特征向量是a = [1, 2],a在坐标平面上就是从原点出发到点 (1,2)的一个向量。
如果没有对数据做中心化,那算出来的第一主成分的方向可能就不是一个可以“描述”(或者说“概括”)数据的方向了。还是看图比较清楚。
黑色线就是第一主成分的方向。只有中心化数据之后,计算得到的方向才2能比较好的“概括”原来的数据。
参考:
1.https://blog.csdn.net/goodshot/article/details/79488629
2.https://blog.csdn.net/GoodShot/article/details/78241862
I. 统计中,数据去中心化和标准化有什么区别吗
数据标准化是指:数值减去均值,再除以标准差;所谓中心化, 是指变量减去它的均值.
J. 在数学中,什么是中心化 标准化 归一化
中心化:一组数据的每个值减去它们的均值
标准化:一组数据的每个值减去它们的均值再除以它们的标准差
归一化:一组数据的每个值除以它们的标准差
不同类型的数据均值不同,方差也不同。
比如100米成绩和马拉松成绩,没法相互比较。
进行这种变换后便于比较,也方便制作指标。