當前位置:首頁 » 算力簡介 » 標准化與去中心化

標准化與去中心化

發布時間: 2023-01-22 11:32:16

A. 何為數據中心化和標准化其目的是什麼

呵呵,同是山大的飄過...
希望今天統計不掛科
我找到的答案是 中心化是數據減去他們的均值
標准化是中心化的數據除以標准差
目的是消除不同變數間猶豫量綱,自身變異,數值大小帶來的影響

B. 中心化、標准化、歸一化

圖.左邊是原始數據的分布情況、中間是經過中心化的分布情況、右邊是經過標准化後的情況。圖片來自知乎

說明:本文純屬胡說,沒有加入嚴謹的數學推導,如有問題還請查看專業的書籍和博客文章

Zero-centered 或者 Mean-subtraction

中心化,就是把數據整體移動到以0為中心點的位置

將數據減去這個數據集的平均值。

例如有一系列的數值

計算平均值為 (1 + 3 + 5 + 7 + 9 )/ 5 = 5

數據變為

Standardization

把整體的數據的中心移動到0,數據再除以一個數。

在數據中心化之後,數據再除以數據集的標准差(即數據集中的各項數據減去數據集的均值再除以數據集的標准差)

再拿上面的數值舉例

原始數據為

經過計算得到數據的標准差約為 σ = 2.8

標准化之後的結果為

Normalization

把數據的最小值移動到0,在除以數據集的最大值。

官方版

首先找到這個數據集的最大值 max 以及最小值 min ,然後將 max - min ,得到兩個的差值 R ,也就是叫做 極差 ,然後對這個數據集的每一個數減去 min ,然後除以 R 。

民間版

這里你要是不記得中心化的話,先看一下中心化。然後開始,首先我們把數據仍然當做整體,然後把最小的點移動到0這個位置,然後回過頭看計算公式是不是變了。由於 min 變成了 0 ,那麼計算的公式就是 x / max' ,這里的 max' 是經過移動之後的數值。

還是拿上面的例子舉例

首先用官方版的方式計算一下

原始數據

最大值 9 ,最小值 1 ,極差 9-1 = 8

接下來計算歸一化後的數值

然後用民間版的方式計算一下

原始數據

按照整體把最小值移動到0,得到

然後除以最大值

可以看到,其實這個歸一化還是那種計算小的占最大的比例。那麼問題來了,那為什麼不這樣算呢?就是說不移動整體,直接把每一個數占據最大數的比例求出來不就行了嗎?

也就是這樣:

額,說實話,這里我覺得沒什麼不妥當,同樣也是將數據收縮在 0~1 的范圍內,但是我換了個數據好像就...

再拿一個數據

按照上面的計算,這里暫時簡稱為「簡單除法法」

而使用歸一化進行計算是這樣的:

可以看到使用「簡單除法法」進行計算得到的位於 0~1 范圍內的數值沒有經過歸一化後的數據「拉得開」,好像膩乎在一塊一樣;同樣是相對於某一數值的比例,使用歸一化就不僅能將數據在收縮在 0~1 范圍內,而且還讓數據在這個范圍內展開。這里不是太好想像為什麼是這樣?這樣,我們打開 photoshop ,你沒有看錯,打開它

然後 文件 -> 新建 -> 確定 -> 新建一個圖層 ,好,新建了一個,然後我們畫一個方塊, 矩形工具 -> 按住shift拖動 ->得到一個方塊,然後 按住alt 對著方塊拖動滑鼠,直到拖出三個,然後按照下圖所示的方式排列。

之後 按住ctrl 加選圖層,把這三個方塊的對應的圖層都選中, 右鍵 -> 合並形狀 。然後把三個方塊拖到畫布的右上角

按 ctrl + t ,可一看到在中心有一個點,這個點是變形時候的參考點,我們把點移動到 最下面這個方塊 的左下角。然後把滑鼠移動到縮放框的右上角 按住shift+alt 進行拖動,感受一下拖動的感覺;然後這個時候把大小還原,將那個中心點移動到這個 畫布 的左下角,然後再次把滑鼠移動到縮放框的右上角 按住shift+alt 進行拖動,感受一下拖動的感覺 。

中心化上面的過程我們看到了,相當於把數據 位移 了一下。在說這個之前,我們來玩一下 找不同 ,網路搜一下 找不同 ,我隨便找了一張,我還記得這是朵拉,哈哈,你能快速找到不同嗎?

這里有沒有騷一點的操作呢?還記得上面的傢伙吧你應該還沒有關吧,進入 photoshop 。然後,現在你手上有 ps ,你怎麼快速找不同呢?

我用 photoshop 把連在一起的兩張圖裁剪開,分別放到兩個圖層中。得到下面的圖。

然後將兩張圖片疊在一起,就像這樣,然後來回調整最上面一個圖層的不透明度或者關閉打開最上面圖層的眼睛,可以看到明顯變化的位置就是不同啦!你可以試一下啊!

歸一化、標准化可以說都是線性的,在 知乎 - 微調 的回答中,他通過公式的轉變最後認為歸一化、標准化很相似,都是 x + b / c 這樣一種形式,具體的可以看參考中的知乎鏈接。對應到這篇文章中就可以這樣做,你可以把那三個方塊的中心點放到中心然後拖動縮放框進行縮放就是標准化啦。在說歸一化、標准化的作用之前,首先來看一句話

看這句話我就想起了我們和宇宙的「體型」的極大懸殊,宇宙浩瀚無垠,極其龐大;沙粒,微乎其微,極其渺小。另外除了上面這句話之外,還有「一花一世界,一葉一菩提」也比較常聽到,這種「以小見大」的境界其實有一種理論模型的說法,我記得在一些初高中的化學或者物理課本上都畫有原子圖,中心一個原子核,然後又三個電子圍繞著中心旋轉,我相信很多人腦子里只要有過太陽系和這幅原子圖的映像後會將它們聯系起來。

原子 的半徑為 10^(-10) m ,太陽系的半徑為 6*10^(12)m ,它們的「體型」的差別用「天壤之別」似乎也不夠,但是這種內部的「運轉」形式又是如此的相似,難道說我們這個世界存在著一種特殊的規律?其實之前就有人提出過一個觀念,叫做 分形宇宙(Fractal Universe) 。

這個是混沌動力學裡面研究的一個饒有興趣的課題,它給我們展現了復雜的結構如何在不同層面上一再重復。所謂的分形宇宙也只是一家之言罷了。

讀到這里,你的腦海中是不是已經浮現出了一個「小宇宙」、「大原子」呢?你的腦子是不是進行了一次歸一化或者說標准化的過程呢?

最近回過頭來看看之前寫的,沒有特別說明其中歸一化與標准化的中的差別。另外也發現標准化與歸一化的形式還不單單只是一種。

說明:公式截取自 機器學習中的特徵縮放(feature scaling)淺談

可以看到最前面兩種(Rescaling 和 Mean normalisation)與前面說到的歸一化是相似的,我覺這里這兩個可以歸為一類。

它們的分母是是一樣的,都是 max(X) - min(X) ,也就是說它們以自己內部的最大的差距最為分母,但是分子不一樣,分別是 x - min(X) 和 x - mean(X) ,這是個什麼意思呢?

這里的 x - mean(X) 就是之前說到的 中心化

因為分母相同,這里先暫時不管分母。

假如有六個點,在每條路上都一條標桿,這里我們來計算一下每一個距離標桿的長度

以 x - min(X) 計算距離

以 x - mean(X) 計算距離

通過圖來看, x - min(X) 中的 min(X) , x - mean(X) 中的 mean(X) 是兩幅圖中各自的標桿,如果移動這條標桿的位置就可以互相轉換。所以這兩個是相似的。但是我們可以看到,第一種得到的數值均為 正數 ,但是第二種是有 正負值的 ,分布於均值兩側。

那麼第三種呢?這個對應到上面我們說到的標准化的東西。但是與上面歸一化有什麼差別呢?

我們拿第二種(Mean normalisation)與第三種(Standardization )進行對比會比較好理解,這兩個的分子都是相同的,但是分母不同,前者是 max(X) - min(X) (也就是極差),後者是 std(X) (也就是標准差),我們看看這兩者的計算方式的特點

如果說數據存在特別大的或者特別小的數據的時候,歸一化可能會導致數據黏糊在一起的情況(因為歸一化的分母始終是數據中距離最大的點的距離),但是標准化(不僅僅會考慮單個極其特別的點,其他的點都會考慮,得到)出現這種情況會好一些(特別是數據量較大的情況下可能會抹除奇異值的影響)。

另外,歸一化求得的數值最後會在 [-1, 1] 之間,而標准化不一定,有可能會大於 1 或者小於 -1 。

中間如果有錯誤,望能告知。

版權聲明 :本文採用 知識共享署名-非商業性使用-禁止演繹 4.0 國際許可協議 (CC BY-NC-ND 4.0) 進行許可。

C. 何為數據要中心化和標准化其目的是什麼

數據標准化是指:數值減去均值,再除以標准差。

數據中心化是指:變數減去它的均值。

數據中心化和標准化在回歸分析中的意義是取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。

D. SPSS進行中介效應分析用標准化和中心化的區別

1、中介效應分析不需要數據中心化和標准化;
2、強行中心化或中心化,只有非標准化系數不一樣,標准化系是一樣的。

(南心 提供)

E. 做調節效應分析一定要把自變數和調節變數做去中心化處理嗎

不一定,中心化處理只不過是為了能夠方便解釋而已,並不會影響各項回歸系數。

數據中心化和標准化在回歸分析中是取消由於量綱不同、自身變異或者是數值相差較大所引起的誤差。數據中心化指的就是變數減去它的均值。數據標准化指的就是數值減去均值,再除以標准差。通過中心化和標准化處理,能夠得到均值為0,標准差為1的服從標准正態分布的數據。在一些實際問題當中,我們得到的樣本數據都是多個維度的,也就是一個樣本是用多個特徵來表徵的。很顯然,這些特徵的量綱和數值得量級都是不一樣的,而通過標准化的處理,可以使得不同的特徵具有相同的尺度(Scale)。這樣,在學習參數的時候,不同特徵對參數的影響程度就一樣了。簡而言之,當原始數據不同維度上的特徵的尺度(單位)不一致的時候,需要標准化步驟對數據進行預處理。數據預處理,一般有數據歸一化、標准化以及去中心化。歸一化:是將數據映射到[01]或[-11]區間范圍內,不同特徵的量綱不同,值范圍大小不同,存在奇異值,對訓練有影響。標准化:是將數據映射到滿足標准正態分布的范圍內,使數據滿足均值是0標准差是1。標准化同樣可以消除不同特徵的量綱。去中心化:就是使數據滿足均值為0,但是對標准差沒有要求。如果對數據的范圍沒有限定要求,則選擇標准化進行數據預處理;如果要求數據在某個范圍內取值,則採用歸一化;如果數據不存在極端的極大極小值時,採用歸一化;如果數據存在較多的異常值和噪音,採用標准化。

F. spss實現中心化處理、標准化處理和歸一化處理

轉自https://blog.csdn.net/shouji111111/article/details/88675289

一、中心化、標准化、歸一化簡單描述

意義:數據中心化和標准化在回歸分析中是取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。

原理:

數據標准化:是指數值減去均值,再除以標准差;

數據中心化:是指變數減去它的均值;

歸一化:把數變為(0,1)之間的小數。

二、中心化處理

        數據的中心化是指原數據減去該組數據的平均值,經過中心化處理後,原數據的坐標平移至中心點(0,0),該組數據的均值變為0,以此也被稱為零均值化。

三、標准化處理

        大型數據分析項目中,數據來源不同,量綱及量綱單位不同,為了讓它們具備可比性,需要採用標准化方法消除由此帶來的偏差。 原始數據經過數據標准化處理後,各指標處於同一數量級,適合進行綜合對比評價。這就是數據標准化。

        基本原理:數值減去平均值,再除以其標准差,得到均值為0,標准差為1的服從標准正態分布的數據。

        在SPSS中,使用最多的就是Z-score標准化(0-1標准化)方法,這種方法給予原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。經過處理的數據符合標准正態分布,即均值為0,標准差為1。

四、歸一化處理

歸一化方法:

把數變為(0,1)之間的小數

主要是為了數據處理方便提出來的,把數據映射到0~1范圍之內處理,更加便捷快速

把有量綱表達式變為無量綱表達式,成為純量。歸一化,也算是數據標准化方法之一。常見的計算公式如下,得到新數據范圍在[0,1]之間,歸一化由此得名。

G. 數據中心化和標准化在回歸分析中的意義是什麼

對數據中心化和標准化的目的是消除特徵之間的差異性,可以使得不同的特徵具有相同的尺度,讓不同特徵對參數的影響程度一致。簡言之,當原始數據不同維度上的特徵的尺度(單位)不一致時,需要中心化和標准化步驟對數據進行預處理。

(7)標准化與去中心化擴展閱讀:

因為原始數據往往自變數的單位不同,會給分析帶來一定困難,又因為數據量較大,可能會因為舍入誤差而使計算結果並不理想。數據中心化和標准化有利於消除由於量綱不同、數量級不同帶來的影響,避免不必要的誤差。

回歸分析中,通常需要對原始數據進行中心化處理和標准化處理。通過中心化和標准化處理,得到均值為0,標准差為1的服從標准正態分布的數據。

H. [轉載]中心化(又叫零均值化)和標准化(又叫歸一化)

https://blog.csdn.net/GoodShot/article/details/80373372

一、中心化(又叫零均值化)和標准化(又叫歸一化)概念及目的?

1、在回歸問題和一些機器學習演算法中,以及訓練神經網路的過程中,通常需要對原始數據進行中心化(Zero-centered或者Mean-subtraction(subtraction表示減去))處理和標准化(Standardization或Normalization)處理

數據標准化(歸一化)處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標准化處理,以解決數據指標之間的可比性。原始數據經過數據標准化處理後,各指標處於同一數量級,適合進行綜合對比評價。

意義:數據中心化和標准化在回歸分析中是取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。原理:數據標准化:是指數值減去均值,再除以標准差;

數據中心化:是指變數減去它的均值。

目的:通過中心化和標准化處理,得到均值為0,標准差為1的服從標准正態分布的數據。

2、(1)中心化(零均值化)後的數據均值為零

(2)z-score 標准化後的數據均值為0,標准差為1(方差也為1)

三、下面解釋一下為什麼需要使用這些數據預處理步驟。

在一些實際問題中,我們得到的樣本數據都是多個維度的,即一個樣本是用多個特徵來表徵的。比如在預測房價的問題中,影響房價的因素有房子面積、卧室數量等,我們得到的樣本數據就是這樣一些樣本點,這里的、又被稱為特徵。很顯然,這些特徵的量綱和數值得量級都是不一樣的,在預測房價時,如果直接使用原始的數據值,那麼他們對房價的影響程度將是不一樣的,而通過標准化處理,可以使得不同的特徵具有相同的尺度(Scale)。簡言之,當原始數據不同維度上的特徵的尺度(單位)不一致時,需要標准化步驟對數據進行預處理。

下圖中以二維數據為例:左圖表示的是原始數據;中間的是中心化後的數據,數據被移動大原點周圍;右圖將中心化後的數據除以標准差,得到為標准化的數據,可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。

其實,在不同的問題中,中心化和標准化有著不同的意義,

比如在訓練神經網路的過程中,通過將數據標准化,能夠加速權重參數的收斂。

·       對數據進行中心化預處理,這樣做的目的是要增加基向量的正交性。

四、歸一化

兩個優點:

1)歸一化後加快了梯度下降求最優解的速度;

2)歸一化有可能提高精度。

1、 歸一化為什麼能提高梯度下降法求解最優解的速度?

如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大,X1區間是[0,2000],X2區間是 [1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走「之字型」路線(垂直等高線走),從而導致需要迭代很多次才能收斂;而右圖對兩個原始特徵進行了歸一化,其對應的等高線顯得很圓,在梯度下降進行求解時能較快的收斂。因此如果機器學習模型使用梯度下降法求最優解時,歸一化往往非常有必要,否則很難收斂甚至不能收斂。

2、歸一化有可能提高精度

一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。如果一個特徵值域范圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況相悖(比如這時實際情況是值域范圍小的特徵更重要)。

3、以下是兩種常用的歸一化方法:

1)min-max標准化(Min-MaxNormalization)

也稱為離差標准化,是對原始數據的線性變換,使結果值映射到[0 - 1]之間。轉換函數如下:

其中max為樣本數據的最大值,min為樣本數據的最小值。這種方法有個缺陷就是當有新數據加入時,可能導致max和min的變化,需要重新定義。

2)Z-score標准化(0-1標准化)方法

這種方法給予原始數據的均值(mean)和標准差(standard deviation)進行數據的標准化。經過處理的數據符合標准正態分布,即均值為0,標准差為1。

轉化函數為:

其中 為所有樣本數據的均值, 為所有樣本數據的標准差。

五、中心化(以PCA為例)

下面兩幅圖是數據做中心化(centering)前後的對比,可以看到其實就是一個平移的過程,平移後所有數據的中心是(0,0).

在做PCA的時候,我們需要找出矩陣的特徵向量,也就是主成分(PC)。比如說找到的第一個特徵向量是a = [1, 2],a在坐標平面上就是從原點出發到點 (1,2)的一個向量。

如果沒有對數據做中心化,那算出來的第一主成分的方向可能就不是一個可以「描述」(或者說「概括」)數據的方向了。還是看圖比較清楚。

黑色線就是第一主成分的方向。只有中心化數據之後,計算得到的方向才2能比較好的「概括」原來的數據。

參考:

1.https://blog.csdn.net/goodshot/article/details/79488629

2.https://blog.csdn.net/GoodShot/article/details/78241862

I. 統計中,數據去中心化和標准化有什麼區別嗎

數據標准化是指:數值減去均值,再除以標准差;所謂中心化, 是指變數減去它的均值.

J. 在數學中,什麼是中心化 標准化 歸一化

中心化:一組數據的每個值減去它們的均值
標准化:一組數據的每個值減去它們的均值再除以它們的標准差
歸一化:一組數據的每個值除以它們的標准差

不同類型的數據均值不同,方差也不同。
比如100米成績和馬拉松成績,沒法相互比較。
進行這種變換後便於比較,也方便製作指標。

熱點內容
btc名稱 發布:2024-10-01 14:56:57 瀏覽:304
eth20價格 發布:2024-10-01 14:25:50 瀏覽:946
礦池會不會拒絕算力差的礦機 發布:2024-10-01 14:24:57 瀏覽:580
區塊鏈安全技術研究院 發布:2024-10-01 13:03:46 瀏覽:649
11層挖礦 發布:2024-10-01 12:36:46 瀏覽:127
一美元可以兌換多少個比特幣 發布:2024-10-01 12:26:31 瀏覽:50
區塊鏈延遲兌付 發布:2024-10-01 12:20:15 瀏覽:206
包網吧挖礦 發布:2024-10-01 11:49:26 瀏覽:794
hbt區塊鏈真的假的 發布:2024-10-01 11:41:26 瀏覽:865
光明大陸挖礦35 發布:2024-10-01 11:31:13 瀏覽:948