一、相關(guān)系數(shù)的意義
相關(guān)分析是用相關(guān)系數(shù)(r)來表示兩個(gè)變量間相互的直線關(guān)系,并判斷其密切程度的統(tǒng)計(jì)方法。相關(guān)系數(shù)r沒有單位。在-1~+1范圍內(nèi)變動(dòng),其絕對(duì)值愈接近1,兩個(gè)變量間的直線相關(guān)愈密切,愈接近0,相關(guān)愈不密切。相關(guān)系數(shù)若為正,說明一變量隨另一變量增減而增減,方向相同;若為負(fù),表示一變量增加、另一變量減少,即方向相反,但它不能表達(dá)直線以外(如各種曲線)的關(guān)系。
為判斷兩事物數(shù)量間有無相關(guān),可先將兩組變量中一對(duì)對(duì)數(shù)值在普通方格紙上作散點(diǎn)圖,如圖9.1~9.8所示。圖中點(diǎn)子的分布可出現(xiàn)以下幾種情況:
正相關(guān)——見圖9.1,各點(diǎn)分布呈橢圓形,Y隨X的增加而增加,X亦隨Y的增加而增加,此時(shí)1>r>0。橢圓范圍內(nèi)各點(diǎn)的排列愈接近其長(zhǎng)軸,相關(guān)愈密切,當(dāng)所有點(diǎn)子都在長(zhǎng)軸上時(shí),r=1(見圖9.2),稱為完全正相關(guān)。
負(fù)相關(guān)——見圖9.3,各點(diǎn)分布亦呈橢圓形,Y隨X的增加而減少,X也隨Y的增加而減少,此時(shí)0>r>-1。各點(diǎn)排列愈接近其長(zhǎng)軸,相關(guān)愈密切,當(dāng)所有點(diǎn)子都在長(zhǎng)軸上時(shí),r=1(見圖9.4),稱為完全負(fù)相關(guān)。
在生物現(xiàn)象中,完全正相關(guān)或完全負(fù)相關(guān)甚為少見。
無相關(guān)——見圖9.5、圖9.6和圖9.7,X不論增加或減少,Y的大小不受其影響;反之亦然。此時(shí)r=0。另外,須注意有時(shí)雖然各點(diǎn)密集于一條直線,但該直線與X軸或Y軸平行,即X與Y的消長(zhǎng)互不影響,這種情況仍為無相關(guān)。
非線性相關(guān)——見圖9.8,圖中各點(diǎn)的排列不呈直線趨勢(shì),卻呈某種曲線形狀,此時(shí)r≈0,類似這種情況稱為非線性相關(guān)。
圖9.1—9.8 不同相關(guān)系數(shù)的散點(diǎn)示意圖
二、相關(guān)系數(shù)的計(jì)算及假設(shè)檢驗(yàn)
。ㄒ)相關(guān)系數(shù)計(jì)算法
計(jì)算相關(guān)系數(shù)的基本公式為:
(9.1)
式(9.1)中r為相關(guān)系數(shù),∑(X-X)2為X的離均差平方和,∑(Y-Y)2為Y的離均差平方和,∑(X-X)(Y-Y)為X與Y的離均差乘積之和,簡(jiǎn)稱離均差積之和,此值可正可負(fù)。以此式為基礎(chǔ)計(jì)算相關(guān)系數(shù)的方法稱積差法,在實(shí)際應(yīng)用時(shí)式(9.1)中各離均差平方和(簡(jiǎn)稱差方和)與積之和可化為
(9.2)
現(xiàn)舉例說明計(jì)算相關(guān)系數(shù)的一般步驟:
例9.1 測(cè)定15名健康成人血液的一般凝血酶濃度(單位/毫升)及血液的凝固時(shí)間(秒),測(cè)定結(jié)果記錄于表9.1第(2)、(3)欄,問血凝時(shí)間與凝血酶濃度間有無相關(guān)?
1.繪圖,將表9.1第(2)、(3)欄各對(duì)數(shù)據(jù)繪成散點(diǎn)圖,見圖9.9。
2.求出∑X、∑Y、∑X2、∑Y2、∑XY,見表9.1下方。
3,代入公式,求出r值。
圖9.9 凝血時(shí)間與凝血酶濃度散點(diǎn)圖及回歸直線
表9.1 相關(guān)系數(shù)計(jì)算表
受試者號(hào)(1) |
凝血酶濃度(單位/毫升) |
凝血時(shí)間(秒) |
1 | 1.1 | 14 |
2 | 1.2 | 13 |
3 | 1.0 | 15 |
4 | 0.9 | 15 |
5 | 1.2 | 13 |
6 | 1.1 | 14 |
7 | 0.9 | 16 |
8 | 0.9 | 15 |
9 | 1.0 | 14 |
10 | 0.9 | 16 |
11 | 1.1 | 15 |
12 | 0.9 | 16 |
13 | 1.1 | 14 |
14 | 1.0 | 15 |
15 | 0.8 | 17 |
合計(jì) | 15.1 | 222 |
∑X=15.1 ∑Y=222
∑XY=221.7
∑X2=15.41∑Y2=3304
本例的相關(guān)系數(shù)r=-0.9070,負(fù)值表示血凝時(shí)間隨凝血酶濃度的增高而縮短;絕對(duì)值∣-0.9070∣表示這一關(guān)系的密切程度。至于此相關(guān)系數(shù)是否顯著,則要經(jīng)過下面的分析。
。ǘ)相關(guān)系數(shù)的假設(shè)檢驗(yàn)
雖然樣本相關(guān)系數(shù)r可作為總體相關(guān)系數(shù)ρ的估計(jì)值,但從相關(guān)系數(shù)ρ=0的總體中抽出的樣本,計(jì)算其相關(guān)系數(shù)r,因?yàn)橛谐闃诱`差,故不一定是0,要判斷不等于0的r值是來自ρ=0的總體還是來自ρ≠0的總體,必須進(jìn)行顯著性檢驗(yàn)。檢驗(yàn)假設(shè)是ρ=0,r與0的差別是否顯著要按該樣本來自ρ=0的總體概率而定。如果從相關(guān)系數(shù)ρ=0的總體中取得某r值的概率P>0.05,我們就接受假設(shè),認(rèn)為此r值的很可能是從此總體中取得的。因此判斷兩變量間無顯著關(guān)系;如果取得r值的概率P≤0.05或P≤0.01,我們就在α=0.05或α=0.01水準(zhǔn)上拒絕檢驗(yàn)假設(shè),認(rèn)為該r值不是來自ρ=0的總體,而是來自ρ≠0的另一個(gè)總體,因此就判斷兩變量間有顯著關(guān)系。
由于來自ρ-0的總體的所有樣本相關(guān)系數(shù)呈對(duì)稱分布,故r的顯著性可用t檢驗(yàn)來進(jìn)行。本例r=-0.9070,進(jìn)行t檢驗(yàn)的步驟為:
1.建立檢驗(yàn)假設(shè),H0:ρ=0,H1:ρ≠0,α=0.01
2.計(jì)算相關(guān)系數(shù)的r的t值:
。9.3)
3.查t值表作結(jié)論
ν=n-2=15-2=13
根據(jù)專業(yè)知識(shí)知道凝血酶濃度與凝血時(shí)間之間不會(huì)呈正相關(guān),故宜用單側(cè)界限,查t值表得
t0.01,13=2.650
今∣tr∣>t0.01,13,P<0.01,在α=0.01水準(zhǔn)上拒絕H0,接受H1,故可認(rèn)為凝血時(shí)間的長(zhǎng)短與血液中酶濃度有負(fù)相關(guān)。
為簡(jiǎn)化tr檢驗(yàn)的計(jì)算過程,數(shù)理統(tǒng)計(jì)工作者根據(jù)t分配表,已把不同自由度時(shí)r的臨界值求出,并列成相關(guān)系數(shù)界值表(見附表11)。故求相關(guān)系數(shù)后,只需查表就可知道該r值是否顯著,而不必再計(jì)算tr值。
r的顯著性界限為
|r|
r0.05,,≤|r|<r0.01,, 0.05≥P>0.01
在α=0.05水準(zhǔn)上相關(guān)顯著
|r|≥r0.01,, P≤0.01 在α=0.01水準(zhǔn)上相關(guān)顯著
例9.1的ν =15-2=13,查附表11中P(1)的界值,得:
r0.05,13=0.441r0.01,13=0.592
現(xiàn)r=-0.9070,∣r∣>r0.01,13,P<0.01,按α=0.01水準(zhǔn),拒絕HO,接受H1。認(rèn)為ρ≠0,說明凝血時(shí)間的長(zhǎng)短與血液中凝血酶濃度有負(fù)相關(guān)。結(jié)論與計(jì)算所得一致。
相關(guān)系數(shù)的顯著性與自由度的大小有關(guān),如n=3,ν=1時(shí),雖r=-0.9070,卻為不顯著;若ν=400時(shí),即使r=0.1000,亦為顯著。因此不能只看r的值,不考慮ν就下結(jié)論。