教 案
2007 — 2008 學(xué)年 秋 季學(xué)期
所在單位 公共衛(wèi)生與熱帶醫(yī)學(xué)學(xué)院
系、教研室 生物統(tǒng)計(jì)學(xué)系
課程名稱 衛(wèi)生統(tǒng)計(jì)學(xué)
授課對象 2004級預(yù)防醫(yī)學(xué)本科
授課教師 閻玉霞
職 稱 講師
教材名稱衛(wèi)生統(tǒng)計(jì)學(xué)
南方醫(yī)科大學(xué)教案首頁
授課題目 | 簡單回歸分析 | 授課形式 | 講授 |
授課時(shí)間 | 2007-12-11 | 授課學(xué)時(shí) | 3 |
教學(xué)目的 與 要 求 | 了解回歸的思想來源 掌握線性回歸方程的計(jì)算,回歸系數(shù)的假設(shè)檢驗(yàn)的思想和步驟 了解回歸方程的應(yīng)用 | ||
基本內(nèi)容 | 1. 回歸思想的來源 2. 散點(diǎn)圖、線性回歸方程 3. 回歸系數(shù)的假設(shè)檢驗(yàn) 4. 回歸系數(shù)與預(yù)測值的區(qū)間估計(jì) 5. 回歸方程的應(yīng)用及注意事項(xiàng) | ||
重 點(diǎn) 難 點(diǎn) | 其中,1、4、5為了解內(nèi)容,2、3為重點(diǎn)內(nèi)容,對最小二乘法和可信區(qū)間與容許區(qū)間的區(qū)別的理解是難點(diǎn)(了解)。 | ||
主要教學(xué) 媒 體 | 多媒體投影儀 | ||
主 要 外 語 詞 匯 | regression coefficient, linear regression analysis, linear, independent , normal, equal variance | ||
有關(guān)本內(nèi)容的新進(jìn)展 | |||
主要參考資料或相關(guān)網(wǎng)站 | http://www.smmu.edu。cn/zykj/~statistics/index/index.htm 1. 徐勇勇主編. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)(第二版). 北京:高等教育出版社,2004 2. 楊樹勤主編. 衛(wèi)生統(tǒng)計(jì)學(xué)(第二版). 北京:人民衛(wèi)生出版社,1991 3. 方積乾主編. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)與電腦實(shí)驗(yàn)(第二版). 上海:上海科學(xué)技術(shù)出版社,2001 4. 孫振球主編. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)(供研究生用). 北京:人民衛(wèi)生出版社,2004 | ||
系、教研室 審查意見 | |||
課后體會(huì) |
南方醫(yī)科大學(xué)教案
教學(xué)內(nèi)容 | 時(shí)間分配和 媒體選擇 |
第十二章 簡單回歸分析 第一節(jié) 簡單線性回歸 導(dǎo)入 一、線性回歸的概念及其統(tǒng)計(jì)描述 1 線性回歸的概念 2直線回歸方程的求法 3最小二乘法 二、回歸模型的前提假設(shè) 線性(linear) 獨(dú)立(independent) 正態(tài)(normal) 等方差(equal variance) 三、回歸系數(shù)的估計(jì) 例題 解題步驟 1.由原始數(shù)據(jù)及散點(diǎn)圖觀察兩變量間是否有直線趨勢 2.計(jì)算、的均數(shù)、,離均差平方和、與離均差積和。 3.計(jì)算有關(guān)指標(biāo)的值 4.計(jì)算回歸系數(shù)和截距 5.列出回歸方程 四、總體回歸系數(shù)β的統(tǒng)計(jì)推斷 應(yīng)變量的離均差平方和作分析。 方差分析法 舉例 T檢驗(yàn)法 舉例 第二節(jié) 線性回歸的應(yīng)用 一、總體回歸線的95%置信帶 二、個(gè)體Y預(yù)測值的區(qū)間估計(jì) 第三節(jié) 殘差分析 回歸方程的應(yīng)用 回歸分析的注意事項(xiàng) 小結(jié) | 幻燈片5分鐘 幻燈片10分鐘 幻燈片15分鐘 幻燈片5分鐘 幻燈片3分鐘 幻燈片2分鐘 幻燈片2分鐘 幻燈片3分鐘 幻燈片5分鐘 幻燈片5分鐘 幻燈片2分鐘 幻燈片3分鐘 幻燈片5分鐘 幻燈片10分鐘 幻燈片5分鐘 幻燈片5分鐘 幻燈片5分鐘 幻燈片5分鐘 幻燈片10分鐘 幻燈片5分鐘 幻燈片5分鐘 幻燈片5分鐘 |
教學(xué)進(jìn)程
教學(xué)內(nèi)容 | 時(shí)間分配 媒體選擇 |
第十二章 gydjdsj.org.cn/zhicheng/簡單回歸分析 第一節(jié) 簡單線性回歸 導(dǎo)入 兩變量之間的關(guān)系 無關(guān)系 確定性關(guān)系 有關(guān)系 非確定性關(guān)系 確定性關(guān)系:已知一個(gè)變量能精確求出另一個(gè)變量的值,兩變量是完全對應(yīng)的。例:S=VT,C=2pr。 非確定性關(guān)系:兩變量存在某種關(guān)系,但非完全一一對應(yīng)關(guān)系,而是有某種趨勢。例:正常人收縮壓隨年齡增高而增高,但不能講某一年齡的人血壓一定是多少。 兩個(gè)或更多變量之間的關(guān)系,如: 廣告費(fèi)支出~商品銷售額 受教育程度~收入水平 藥物劑量~動(dòng)物死亡率 年齡、體重~血壓 回歸與相關(guān)的思想來源 Francis Galton (1822-1911)和Karl Pearson (1890-1920) “Regression toward mediocrity in heredity stature” Journal of the Anthropological Institute, 1886, 15: 246 – 263 父親身高(X)~兒子身高(Y)
| 幻燈片5分鐘 |
教學(xué)過程
教學(xué)內(nèi)容 | 時(shí)間分配 媒體選擇 |
依存關(guān)系:應(yīng)變量(dependent variable)Y隨自變量(independent variable )X變化而變化 ——回歸分析 姐妹身高(X)~兄弟身高(Y) 互依關(guān)系:變量X 與Y 之間的彼此關(guān)系 ——相關(guān)分析 一、線性回歸的概念及其統(tǒng)計(jì)描述(linear regression analysis) 直線回歸的概念 目的:研究應(yīng)變量Y對自變量X的數(shù)量依存關(guān)系。 特點(diǎn):統(tǒng)計(jì)關(guān)系。 X值和Y的均數(shù)的關(guān)系, 不同于一般數(shù)學(xué)上的X 和Y的函數(shù)關(guān)系 為了直觀地說明直線回歸的概念,以15名健康人凝血酶濃度(X)與凝血時(shí)間(Y)數(shù)據(jù)(表12-1)進(jìn)行回歸分析,得到圖12-1所示散點(diǎn)圖(scatter plot) 圖12-1 15名健康人凝血酶濃度(X)與凝血時(shí)間(Y)散點(diǎn)圖 由圖12-1可見,凝血時(shí)間隨凝血酶濃度的增加而減低且呈直線趨勢,但并非所有點(diǎn)子恰好全都在一直線上,此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同,稱為直線回歸(linear regression),其方程叫直線回歸方程,以區(qū)別嚴(yán)格意義的直線方程。回歸是回歸分析中最基本、最簡單的一種,故又稱簡單回歸。 直線回歸方程的求法 直線回歸方程的一般表達(dá)式為
為回歸直線在軸上的截距(intercept)。>0,表示直線與縱軸的交點(diǎn)在原點(diǎn)的上方;<0,則交點(diǎn)在原點(diǎn)的下方;=0,則回歸直線通過原點(diǎn)。 為回歸系數(shù)(regression coefficient),即直線的斜率(slope)。>0,表示直線從左下方走向右上方,即隨增大而增大;<0,表示直線從左上方走向右下方,即隨增大而減。=0,表示直線與軸平行,即與無直線關(guān)系。由公式可以看出的統(tǒng)計(jì)學(xué)意義是每增加(減)一個(gè)單位,平均改變個(gè)單位。 為了求解、兩個(gè)系數(shù),根據(jù)數(shù)學(xué)上的最小二乘法(least square method)原理, 保證各實(shí)測點(diǎn)至直線的縱向距離的平方和最小,故又稱最小二乘回歸 二、回歸模型的前提假設(shè) 線性回歸模型的前提條件是: 線性(linear) 獨(dú)立(independent) 正態(tài)(normal) 等方差(equal variance) 回歸參數(shù)的估計(jì) Ø殘差(residual)或剩余值,即實(shí)測值Y與假定回歸線上的估計(jì)值 的縱向距離 。 Ø求解a、b實(shí)際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點(diǎn)分布趨勢的直線。 原則:最小二乘法(least sum of squares),即可保證各實(shí)測點(diǎn)至直線的縱向距離的平方和最小 三、回歸系數(shù)的估計(jì) | 幻燈片10分鐘 幻燈片15分鐘 幻燈片5分鐘 幻燈片3分鐘 幻燈片2分鐘 幻燈片2分鐘 幻燈片3分鐘 |
教學(xué)內(nèi)容 | 時(shí)間分配 媒體選擇 | ||||||||||||||
。
可導(dǎo)出、的算式如下
本例:n=15 ΣX=14.7 ΣX2=14.81 ΣY=224 ΣXY=216.7 ΣY2=3368
幾個(gè)公式 均數(shù): =, |
教學(xué)內(nèi)容 | 時(shí)間分配 媒體選擇 |
離均差平方和: =
離均差乘積和:
除了圖中所示兩變量呈直線關(guān)系外,一般還假定每個(gè)對應(yīng)的總體為正態(tài)分布,各個(gè)正態(tài)分布的總體方差相等且各次觀測相互獨(dú)立。這樣,公式(12-2)中的實(shí)際上是所對應(yīng)的總體均數(shù)的一個(gè)樣本估計(jì)值,稱為回歸方程的預(yù)測值(predicted value),而、分別為和的樣本估計(jì)。 解題步驟 1.由原始數(shù)據(jù)及散點(diǎn)圖觀察兩變量間是否有直線趨勢 2.計(jì)算、的均數(shù)、,離均差平方和、與離均差積和。 3.計(jì)算有關(guān)指標(biāo)的值 4.計(jì)算回歸系數(shù)和截距 5.列出回歸方程 繪制回歸直線 此直線必然通過點(diǎn)( , )且與縱坐標(biāo)軸相交于截距a 。如果散點(diǎn)圖沒有從坐標(biāo)系原點(diǎn)開始,可在自變量實(shí)測范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的 值代入回歸方程得到一個(gè)點(diǎn)的坐標(biāo),連接此點(diǎn)與點(diǎn)( , )也可繪出回歸直線。 | 幻燈片5分鐘 幻燈片5分鐘 幻燈片2分鐘 幻燈片3分鐘 幻燈片5 分鐘 |
教學(xué)內(nèi)容 | 時(shí)間分配 媒體選擇 |
圖12-2 應(yīng)變量Y的離均差劃分示意圖 四、總體回歸系數(shù)β的統(tǒng)計(jì)推斷 建立樣本直線回歸方程,只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述,研究者還須回答它所來自的總體的直線回歸關(guān)系是否確實(shí)存在,即是否對總體有 ? 無論如何取值,總在一條水平線上,即,總體直線回歸方程并不成立,意即與無直線關(guān)系,此時(shí)。然而在一次隨機(jī)抽樣中,如果所得樣本為實(shí)心園點(diǎn)所示,則會(huì)得到一個(gè)并不等于0的樣本回歸系數(shù)。與0相差到多大可以認(rèn)為具有統(tǒng)計(jì)學(xué)意義?可用方差分析或與其等價(jià)的t檢驗(yàn)來回答這一問題。 前面所求得的回歸方程是否成立,即、是否有直線關(guān)系,是回歸分析要考慮的首要問題。我們知道即使、的總體回歸系數(shù)β為零,由于抽樣誤差,其樣本回歸系數(shù)也不一定為零。因此需作β是否為零的假設(shè)檢驗(yàn),用方差分析或t檢驗(yàn)。在講述假設(shè)檢驗(yàn)之前,讓我們先對應(yīng)變量的離均差平方和作分析。 | |
教學(xué)內(nèi)容 | 時(shí)間分配 媒體選擇 |
如圖12-2,p點(diǎn)的縱坐標(biāo)被回歸直線與均數(shù)截成三個(gè)線段: 第一段(),表示p點(diǎn)與回歸直線的縱向距離,即實(shí)際值與估計(jì)值之差,稱為剩余或殘差。 第二段(),即估計(jì)值與均數(shù)之差,它與回歸系數(shù)的大小有關(guān)。│b│值越大,()的差值也越大,回歸方程越有效,殘差越小,估計(jì)誤差越小。 第三段,是應(yīng)變量的均數(shù)。 上述三段的代數(shù)和為:將等式兩端平方后再求和,因 *,則有:
上式用符號表示為: :即 ,為的離均差平方和(total sum of squares),說明未考慮與的回歸關(guān)系時(shí)的變異。 :即,為回歸平方和(regression sum of squares),它反映在的總變異中由于與的直線關(guān)系而使變異減小的部分,也就是在總平方和中可以用解釋的部分。越大,說明回歸效果越好。 :即,為剩余平方和(residual sum of squares),它反應(yīng)對的線性影響之外的一切因素對的變異的作用,也就是在總平方和中無法用解釋的部分。在散點(diǎn)圖中,各實(shí)測點(diǎn)離回歸直線越近,也就越小,說明直線回歸的估計(jì)誤差越小。 上述三個(gè)平方和,各有其相應(yīng)的自由度,并有如下的關(guān)系: =+ =n-1,=1,=n-2 方差分析:其步驟與一般假設(shè)檢驗(yàn)相同。統(tǒng)計(jì)量F的計(jì)算公式為: | 幻燈片10分鐘 幻燈片5分鐘 |
教學(xué)內(nèi)容 | 時(shí)間分配 媒體選擇 |
分別稱為回歸均方與剩余均方。統(tǒng)計(jì)量F服從自由度為的F分布。求F值后,查F界值表,得P值,按所取檢驗(yàn)水準(zhǔn)作出推斷結(jié)論。 回歸系數(shù)的t檢驗(yàn)
例12-4 對表12-1數(shù)據(jù)回歸系數(shù)進(jìn)行t檢驗(yàn)。 解:1. 提出檢驗(yàn)假設(shè),確定顯著性水平
2. 計(jì)算統(tǒng)計(jì)量
3. 確定P值,下結(jié)論 查t界值表,P<0.001,按a=0.05的檢驗(yàn)水準(zhǔn)拒絕H0 ,接受H1。 注意:。 第二節(jié) 線性回歸的應(yīng)用 1.總體均數(shù)的可信區(qū)間(總體回歸線的95%置信帶) 給定的數(shù)值,由樣本回歸方程算出的只是相應(yīng)總體均數(shù)的一個(gè)點(diǎn)估計(jì)。會(huì)因樣本而異, 存在抽樣誤差。 | 幻燈片5分鐘 幻燈片5分鐘 |
教學(xué)內(nèi)容 | 時(shí)間分配 媒體選擇 | |||
o 以上是給定某一X值時(shí)所對應(yīng)的總體均數(shù)的置信區(qū)間。當(dāng)同時(shí)考慮X的所有可能取值時(shí),總體均數(shù)的點(diǎn)估計(jì)就是根據(jù)樣本算得的回歸直線
o (1-α)置信區(qū)間的上下限連起來形成一個(gè)弧形區(qū)帶,稱為回歸直線的(1-α)置信帶(confidence band)。同樣,因?yàn)槠錁?biāo)準(zhǔn)誤是X的函數(shù),所以在均數(shù)( )點(diǎn)處置信帶寬度最小,越遠(yuǎn)離該均數(shù)點(diǎn),置信帶寬度越大。 o 圖12-4中,左圖顯示位于最小二乘回歸線上下兩側(cè)的兩條弧形虛線為總體回歸線的(1-α)置信區(qū)帶。右圖的實(shí)線表示可能的總體回歸線,它們落在弧形虛線所確定的置信帶內(nèi)。 o (1-α)置信帶的意義是:在滿足線性回歸的假設(shè)條件下,可以認(rèn)為真實(shí)的回歸直線落在兩條弧形曲線所形成的區(qū)帶內(nèi), 置信度為(1-α) 2.個(gè)體值的預(yù)測區(qū)間(區(qū)間估計(jì)) 所謂預(yù)測就是把預(yù)報(bào)因子(自變量X)代入回歸方程對總體中預(yù)報(bào)量(應(yīng)變量Y)的個(gè)體值進(jìn)行估計(jì)。給定X的數(shù)值,對應(yīng)的個(gè)體Y值也存在一個(gè)波動(dòng)范圍。其標(biāo)準(zhǔn)差(注意勿與樣本觀察值Y的標(biāo)準(zhǔn)差相混)按公式(12-10)計(jì)算
o 以第一觀測點(diǎn)數(shù)據(jù)(X1=1.1)點(diǎn)為例,該點(diǎn)預(yù)測值的標(biāo)準(zhǔn)差為 o =0.52489182 o 第一數(shù)據(jù)點(diǎn)的預(yù)測區(qū)間為: 14.0957±(2.16)(0.0.5249)=12.9618~15.2297 當(dāng)同時(shí)考慮X的所有可能取值時(shí),個(gè)體Y值的95%預(yù)測區(qū)間形成一個(gè) | 幻燈片5分鐘 | |||
教學(xué)內(nèi)容 | 時(shí)間分配 媒體選擇 | |||
o 帶子,稱為Y值的95%預(yù)測帶,它比總體回歸線95%置信帶更寬。 圖12-5和圖12-6同時(shí)顯示個(gè)體Y值的預(yù)測帶與總體回歸線的置信帶,可見,在相同信度下,個(gè)體值預(yù)測帶的曲線要比回歸線置信帶的曲線離回歸直線更遠(yuǎn)。 決定系數(shù)(coefficient of determination) 定義為回歸平方和與總平方和之比,計(jì)算公式為: 取值在0到1之間且無單位,其數(shù)值大小反映了回歸貢獻(xiàn)的相對程度,也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。 第三節(jié) 殘差分析 o殘差(residual)是指觀測值Yi與回歸模型擬合值之差 o 殘差分析(residual analysis)旨在通過殘差深入了解數(shù)據(jù)與模型之間的關(guān)系,評價(jià)實(shí)際資料是否符合回歸模型假設(shè),識(shí)別異常點(diǎn)等。 o例如,第一數(shù)據(jù)點(diǎn)的殘差e1=14-14.0957=-0.0957,如此類推,計(jì)算出各數(shù)據(jù)點(diǎn)的殘差值示于表12-2的第10列中。將第10列的殘差減去其均數(shù),除以其標(biāo)準(zhǔn)差,便得標(biāo)準(zhǔn)化殘差。 若以反應(yīng)變量取值Yi為橫坐標(biāo),以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點(diǎn)圖如圖12-7所示。類似地,也可以自變量取值Xi為橫坐標(biāo), 以標(biāo)準(zhǔn)化殘差為縱坐標(biāo),構(gòu)成的散點(diǎn)圖。這類散點(diǎn)圖統(tǒng)稱為標(biāo)準(zhǔn)化殘差圖。 o圖12-8給出的是以自變量取值為縱坐標(biāo),以殘差為橫坐標(biāo)的殘差圖的常見類型。其中,圖(e)顯示殘差呈隨機(jī)分布;圖(a)、(b ) 和(f)表示殘差不滿足方差齊性條件;圖(c)顯示存在非線性關(guān)系;圖(d)顯示有的點(diǎn)處于±2倍標(biāo)準(zhǔn)差以外,可能是異常點(diǎn)。 例12-5 例12-2樣本回歸系數(shù)b=0.0648,估計(jì)總體回歸系數(shù)b的95%可信區(qū)間。 解:Sb=0.00688,df=12-2=10 查t界值表,得t0.05/2,10=2.228,故b的95%可信區(qū)間是 (0.0648-2.228×0.00688, 0.0648+2.228×0.00688) = (0.0495,0.0801)
3.
4. 個(gè)體Y值的容許區(qū)間 容許區(qū)間:總體中X為某一定值x0時(shí),個(gè)體y值的波動(dòng)范圍。即當(dāng)自變量為x0時(shí),總體中有1-a的個(gè)體值y0在此范圍之內(nèi)。
例12-7 對例12-2,計(jì)算gydjdsj.org.cn/Article/x0=250時(shí),個(gè)體Y值95%的容許區(qū)間。 | 幻燈片10分鐘 |
教學(xué)內(nèi)容 | 時(shí)間分配 媒體選擇 |
解: 故x0=250時(shí),個(gè)體Y值的容許區(qū)間為: (18.2-2.228×1.475, 18.2+2.228×1.475)=(14.95,21.44) 即當(dāng)大鼠進(jìn)食量為250g時(shí),有95%的大鼠體重增加量在14.95~21.44范圍內(nèi)。 回歸方程的應(yīng)用 1. 描述兩個(gè)變量在量上的依存關(guān)系; 2. 估計(jì)和預(yù)測(forecast): 給定X值,估計(jì)Y的波動(dòng)范圍,即Y的(1-a)容許區(qū)間。 3. 控制(control):給定Y值范圍,求X值范圍。 回歸分析的注意事項(xiàng) G 首先繪制散點(diǎn)圖 G Y要服從正態(tài)分布 G 兩變量之間關(guān)系要有實(shí)際意義 G 必須對回歸系數(shù)作假設(shè)檢驗(yàn) 小結(jié) | 幻燈片5分鐘 幻燈片5分鐘 幻燈片5分鐘 |