皮爾遜相關係數:在統計學中，皮爾遜相關係數( Pearson corre -百科知識中文網

函式介紹

在自然科學領域中， 皮爾遜相關係數廣泛用於度量兩個變數之間的相關程度，其值介於-1與1之間。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來的。這個相關係數也稱作“皮爾遜積矩相關係數”。

圖1中，幾組的點集，以及各個點集中和之間的相關係數。我們可以發現相關係數反映的是變數之間的線性關係和相關性的方向（第一排），而不是相關性的斜率（中間），也不是各種非線性關係（第三排）。請注意：中間的圖中斜率為0，但相關係數是沒有意義的，因為此時變數是0。

定義

兩個變數之間的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商：

上式定義了總體相關係數，常用希臘小寫字母作為代表符號。估算樣本的協方差和標準差，可得到 皮爾遜相關係數，常用英文小寫字母代表：

亦可由樣本點的標準分數均值估計，得到與上式等價的表達式：

其中、及分別是對樣本的標準分數、樣本平均值和樣本標準差。

數學特性

總體和樣本皮爾遜係數的絕對值小於或等於1。如果樣本數據點精確的落在直線上（計算樣本皮爾遜係數的情況），或者雙變數分布完全在直線上（計算總體皮爾遜係數的情況），則相關係數等於1或-1。皮爾遜係數是對稱的：。

皮爾遜相關係數有一個重要的數學特性是，因兩個變數的位置和尺度的變化並不會引起該係數的改變，即它該變化的不變數(由符號確定)。也就是說，我們如果把移動到和把Y移動到，其中a、b、c和d是常數，並不會改變兩個變數的相關係數（該結論在總體和樣本皮爾遜相關係數中都成立）。我們發現更一般的線性變換則會改變相關係數：

由於，，也類似，並且

故相關係數也可以表示成

對於樣本皮爾遜相關係數：

以上方程給出了計算樣本皮爾遜相關係數簡單的單流程算法，但是其依賴於涉及到的數據，有時它可能是數值不穩定的。

解釋

皮爾遜相關係數的變化範圍為-1到1。係數的值為1意味著 X和 Y可以很好的由直線方程來描述，所有的數據點都很好的落在一條直線上，且隨著的增加而增加。係數的值為−1意味著所有的數據點都落在直線上，且隨著的增加而減少。係數的值為0意味著兩個變數之間沒有線性關係。

更一般的, 我們發現，若且唯若和均落在他們各自的均值的同一側，則的值為正。也就是說，如果和同時趨向於大於，或同時趨向於小於他們各自的均值，則相關係數為正。如果和趨向於落在他們均值的相反一側，則相關係數為負。

1.幾何學的解釋

對於沒有中心化的數據, 相關係數與兩條可能的回歸線和夾角的餘弦值一致。

對於中心化過的數據 (也就是說, 數據移動一個樣本平均值以使其均值為0)，相關係數也可以被視作由兩個隨機變數向量夾角的餘弦值。

一些人傾向於是用非中心化的相關係數，比較如下：

例如，有5個國家的國民生產總值分別為 10, 20, 30, 50 和 80 億美元。假設這5個國家 (順序相同) 的貧困百分比分別為 11%, 12%, 13%, 15%, and 18% 。令 x和 y分別為包含上述5個數據的向量: x= (1, 2, 3, 5, 8) 和 y= (0.11, 0.12, 0.13, 0.15, 0.18)。

利用通常的方法計算兩個向量之間的夾角，未中心化的相關係數是：