(一)概說
病例對(duì)照研究(case control study)是主要用于探索病因的一種流行病學(xué)方法。它是以某人群內(nèi)一組患有某種病的人(稱為病例)和同一人群內(nèi)未患這種病但在與患病有關(guān)的某些已知因素方面和病例組相似的人(稱為對(duì)照)作為研究對(duì)象;調(diào)查他們過去對(duì)某個(gè)或某些可疑病因(即研究因子)的暴露有無和(或)暴露程度(劑量);通過對(duì)兩組暴露史的比較,推斷研究因子作為病因的可能性:如果病例組有暴露史者或嚴(yán)重暴露者的比例在統(tǒng)計(jì)學(xué)上顯著高于對(duì)照組,則可認(rèn)為這種暴露與患病存在統(tǒng)計(jì)學(xué)聯(lián)系,有可能是因果聯(lián)系(圖4-1)。究竟是否是因果聯(lián)系,須根據(jù)一些標(biāo)準(zhǔn)再加以衡量判斷(詳見第七章“病因及其推斷”)。所謂聯(lián)系(associatiom)是指兩個(gè)或更多個(gè)變量間的一種依賴關(guān)系,可以是因果關(guān)系,也可以不是。
圖4-1 病例對(duì)照研究示意圖
例如,對(duì)一組肺癌病人(病例組)和一組未患肺癌但有可比性的人(對(duì)照組)調(diào)查他們的吸煙(暴露)歷史(可包括現(xiàn)在吸煙否,過去吸過煙否,開始吸煙年齡,吸煙年數(shù),最近每天吸煙支數(shù);如已戒煙則為戒煙前每日吸煙支數(shù),已戒煙年數(shù),等等)。其目的為通過比較兩組吸煙史的差別,檢驗(yàn)吸煙(可疑病因)與疾。ǚ伟)有因果聯(lián)系的假設(shè)。這就是病例對(duì)照研究。
實(shí)例1.吸煙與肺癌的關(guān)系。
英國流行病學(xué)家A.B.Doll與R.Hill于1948~1952年進(jìn)行過一項(xiàng)病例對(duì)照研究。他們從倫敦20所醫(yī)院及其他幾個(gè)地區(qū)選取確診的肺癌1465例。每一病例按性別、年齡組、種族、職業(yè)、社會(huì)階層等條件匹配一個(gè)對(duì)照;對(duì)照系胃癌、腸癌及其他非癌癥住院病人,也是1465例。由調(diào)查員根據(jù)調(diào)查表詢問調(diào)查。經(jīng)分析數(shù)據(jù),得到的主要結(jié)果有:①肺癌病人中不吸煙者的比例遠(yuǎn)小于對(duì)照組:男性占0.3%,女性占31.7%;而對(duì)照組中男性不吸煙者占4.2%,女性占53.3%,差別均很顯著;②肺癌病人在病前10年內(nèi)大量吸煙者(≥25支/日)顯著多于對(duì)照組;③隨著每日吸煙量的增加,肺癌的預(yù)期死亡率。(推算出的年死亡率)也升高,例如男性45歲~64歲組日吸煙25~49支者與不吸煙者死亡率之比為2.94/0.14,即前者的率為后者的21倍;④肺癌病人與對(duì)照組比較,開始吸煙的年齡較早,持續(xù)的年數(shù)較多,而病例中已戒煙者的停吸年數(shù)也少于對(duì)照組中已戒煙者。
以后,Hill,Doll,Peto等又用前瞻性隊(duì)列研究法深入研究,經(jīng)長達(dá)20年(女性經(jīng)22年)的觀察,更加令人信服地提示出吸煙為肺癌的主要病因以及吸煙對(duì)健康的其他多種危害。他們的結(jié)論已為其他許多研究所證實(shí),成為許多國家提倡不吸煙、限制吸煙及限制卷煙銷售政策的科學(xué)基礎(chǔ)。
病例對(duì)照研究是最常用的分析流行病學(xué)方法。因其需要的調(diào)查對(duì)象數(shù)目較少,人力、物力都較節(jié)省,獲得結(jié)果較快,并且可由臨床醫(yī)生在醫(yī)院內(nèi)進(jìn)行。對(duì)于少見病的病因研究,常為唯一可行的方法。但這些優(yōu)點(diǎn)都是與前瞻性隊(duì)列研究相對(duì)而言的,實(shí)際上倘與同等規(guī)模的臨床研究或?qū)嶒?yàn)室研究比較,病例對(duì)照研究所費(fèi)的時(shí)間與精力可能更多。
本書以臨床醫(yī)學(xué)專業(yè)學(xué)生為主要讀者,并不要求他們能掌握或獨(dú)立應(yīng)用分析流行病學(xué)方法,目標(biāo)只是了解大概、擴(kuò)大眼界、培養(yǎng)科學(xué)思辨能力,領(lǐng)會(huì)科學(xué)上獲得一個(gè)發(fā)現(xiàn)或作出一個(gè)結(jié)論的復(fù)雜過程及需要的客觀態(tài)度。
病例對(duì)照研究是從現(xiàn)在是否患有某種疾病出發(fā),回溯過去可能的原因(暴露),在時(shí)間順序上是逆向的,即是從“果”推求“因”,所以又稱回顧性調(diào)查、研究。
病例對(duì)照研究(及其他類型的流行病學(xué)研究)中所謂的暴露(exposure)是指研究對(duì)象(病例或?qū)φ?具有某種疑為與患病與否可能有關(guān)的特征或曾受到某種疑為與患病與否可能有關(guān)的因子的影響。所謂特征(characteristic)可以是體質(zhì)上的、生理上的、也可是心理精神上的;即可以是遺傳性的也可以是獲得性的;所謂因子(因素)既可以是外界的也可以是機(jī)體內(nèi)在的;特征或因子可以是致病性的,也可以是保護(hù)性的(使人免于患病的)。因此,“暴露”是一個(gè)涵義廣泛的概念。
(二)方法
1.樣本含量的估計(jì) 為了研究一種暴露與疾病的關(guān)系需要多大一個(gè)樣本,也就是需要多少個(gè)病例和多少個(gè)對(duì)照,首先取決于4個(gè)條件:①人群中暴露者的比例;②假定暴露造成的相對(duì)危險(xiǎn)度(其涵義詳見后文);③要求的顯著性水平;④要求的把握度。從這4個(gè)條件估算樣本的含量的方法,詳見附錄五。實(shí)際上,樣本含量還受許多因素的制約,例如病例和對(duì)照的來源、財(cái)力、人力、完成期限等。假定只有一定數(shù)目的病例與對(duì)照可以利用,則一個(gè)研究能查出的最小相對(duì)危險(xiǎn)度是多少?又假定經(jīng)費(fèi)數(shù)目已限定,則應(yīng)選多少個(gè)病例與對(duì)照才能取得最大的把握度,這些都是應(yīng)考慮的問題。此外,評(píng)價(jià)交互反應(yīng),控制混淆因素,亞組分析,每例多個(gè)對(duì)照等均影響所需樣本的大小。
2.病例和對(duì)照的來源與選擇
。1)病例:主要有兩種來源:①從醫(yī)院病人選擇,即是從某一所或若干所醫(yī)院選擇某時(shí)期內(nèi)就診或住院的某種病的全部病例。病例應(yīng)符合統(tǒng)一的、明確的診斷標(biāo)準(zhǔn)。最好是新發(fā)生的(新診斷的)病例。因?yàn)橐环N病的全部病例不大可能都有進(jìn)入某一所或幾所醫(yī)院的同等機(jī)會(huì),能進(jìn)入的只是其中符合條件(即選擇因素)的那一部分,所以不要求能代表某時(shí)某地的全部病例,但應(yīng)要求能代表產(chǎn)生病例的人群,即該人群只要發(fā)生該種病例均可能進(jìn)入該院。這樣,結(jié)果的普遍性雖受限,但真實(shí)性不受影響,而真實(shí)性是普遍性的前提。這種研究稱為以醫(yī)院為基礎(chǔ)的(hospital-based)病例對(duì)照研究;②從某特定人群選擇病例,即是以符合某一明確規(guī)定的人群在某時(shí)期內(nèi)(一年或幾年,視病例發(fā)生多少而定)的全部病例或當(dāng)病例數(shù)過多時(shí)以其中的一個(gè)隨機(jī)樣本作為研究對(duì)象。其優(yōu)點(diǎn)是選擇偏倚比前一種來源的小,結(jié)論推及該人群的可信程度較高。這種研究稱為以人群為基礎(chǔ)的(population-based)病例對(duì)照研究。
(2)對(duì)照:設(shè)立對(duì)照的目的在于估計(jì)如果疾病與暴露無聯(lián)系,則病例組的暴露率可能為多少,也就是為比較提供一個(gè)基準(zhǔn)。因此,對(duì)照與病例在一些主要方面必須具可比性。首先,對(duì)照必須從病例所來自的人群選擇,對(duì)照是有可能成為病例的人,換言之,每一病例在未發(fā)病前應(yīng)該是合格的對(duì)照,而每一對(duì)照若發(fā)病都有可能成為病例組的成員。對(duì)照選擇是否恰當(dāng)是病例對(duì)照研究成敗關(guān)鍵之一。
通常的做法是:如果病例組來自某一特定人群,則可以該人群的非病例(即未患該種疾病的人)的一個(gè)隨機(jī)樣本作對(duì)照;如果病例來自某所醫(yī)院,則可從同醫(yī)院同時(shí)就診或住院的其他病例中選擇對(duì)照。要求對(duì)照具有和病例一致的某些特征,即對(duì)照與病例有可比性,例如性別、年齡、居住地等;同時(shí)要求對(duì)照沒有患和研究因子與研究疾病有關(guān)的其他疾病的可能。例如,研究吸煙與肺癌的關(guān)系時(shí),不能以慢性支氣管炎病人為對(duì)照,因?yàn)槲鼰熗瑫r(shí)是這兩種病的可能病因;研究胃癌的病因不能以“慢性胃炎”病人為對(duì)照,因?yàn)檫@兩種病在病因上有密切關(guān)系,前者可能是后者在病因鏈上的一環(huán)。上述要求的目的都是減少混淆偏倚。其他來源的對(duì)照如病例的鄰居、同事、親屬等。各種不同來源的對(duì)照要解決的問題不同,都各有其局限性。例如,鄰居對(duì)照可控制社會(huì)經(jīng)濟(jì)地位的混淆作用,兄弟姊妹對(duì)照是考慮控制早期環(huán)境的影響和遺傳因素的混淆作用(極端要求為用同卵孿生),配偶對(duì)照是主要考慮成年期環(huán)境的影響。最常采用的方式是對(duì)照和病例都選自同一醫(yī)院,因?yàn)槔碚撋纤麄兌紒碜栽撫t(yī)院所服務(wù)的同一人群,而且對(duì)兩者都可在相同的環(huán)境中進(jìn)行調(diào)查,也易于合作。但是由于不同病種的患者入院的機(jī)會(huì)不同,有可能使本來與某病無關(guān)的特征在醫(yī)院病例中表現(xiàn)出虛假的聯(lián)系(詳見第七章“病因及其推斷”)。為了減少這種偏倚發(fā)生的可能性,應(yīng)該選取多種疾病而不是一種疾病的病人作對(duì)照。
3.病例與對(duì)照的配合 設(shè)置對(duì)照的作用在于平衡除了研究因子(暴露)以外的其他可能影響患病的因素,也就是說如果暴露與所研究的疾病不存在聯(lián)系的話,病例的暴露比例(率)應(yīng)該與對(duì)照的無顯著差別;如果發(fā)現(xiàn)顯著差別,既然對(duì)照與病例在其他有關(guān)方面都可比較,因此可以推斷患病與否可能是與暴露率的差別有聯(lián)系。為使兩者具可比性,首先可以通過限制選擇病例與對(duì)照的范圍(例如年齡范圍、性別、種族等),使有關(guān)因子盡可能齊同。病例組與對(duì)照組的某些特征不應(yīng)存在顯著差別,即應(yīng)該均衡。
另一個(gè)選擇對(duì)照的重要方法叫匹配(matching,曾譯“配比”),又稱匹配抽樣(matched sampling),就是在安排病例與對(duì)照時(shí),使兩者的某些特征或變量相一致。具體做法有兩種:一種叫成組匹配或頻數(shù)匹配,即在選擇好一組病例之后,在選擇對(duì)照組時(shí)要求其某些特征或變量的構(gòu)成比例與病例組的一致(即在兩組的總體分布一致),例如性別、年齡構(gòu)成一致,具體做法上類似分層抽樣。另一種做法叫個(gè)別匹配,就是以每一病例為單位,選擇少數(shù)幾個(gè)特征或變量方面與病例一致的一個(gè)或幾個(gè)對(duì)照者組成一個(gè)計(jì)數(shù)單位或計(jì)數(shù)和分析單位。一個(gè)病例匹配一個(gè)對(duì)照的(即1:1匹配)一般稱為配對(duì),也就是說由一個(gè)病例和一個(gè)對(duì)照組成對(duì)子(pair)為一個(gè)計(jì)數(shù)單位。
個(gè)別匹配,特別是1:1匹配,最常被采用。理論上,一個(gè)病例可以匹配多個(gè)對(duì)照,但研究證明病例與對(duì)照之比超過1:4時(shí),統(tǒng)計(jì)效率不會(huì)明顯增加,但工作量卻增大。如果病例與對(duì)照來源都充足,調(diào)查費(fèi)用又差不多,則以1:1匹配最合適;如果病例數(shù)有限而對(duì)照易得,則可采用一個(gè)病例匹配幾個(gè)對(duì)照的辦法以提高統(tǒng)計(jì)效率(例如實(shí)例2)。
在病例對(duì)照研究中采用匹配的目的,首先在于提高研究效率(study efficiency),表現(xiàn)為每一研究對(duì)象提供的信息量的增加。匹配后再按匹配的因素進(jìn)行分層分析,可使每一個(gè)匹配層中都有一定數(shù)目的病例與對(duì)照,不至于因有的層只有病例有的層只有對(duì)照而無法對(duì)比,不能提供信息。其次,在于控制混淆因素的作用。所以匹配的特征或變量必須是已知的混淆因子,至少也應(yīng)有充分的理由這樣懷疑,否則不應(yīng)匹配。
無論是否采用匹配設(shè)計(jì),為控制混淆作用都須在分析階段用分層、標(biāo)準(zhǔn)化或多元分析,但匹配后再按匹配因素作分層分析可以提高分析的效率,也就是提高了控制混淆因素的效率。
但是匹配也要付出代價(jià):匹配增加了尋找對(duì)照的速度,以同樣的低價(jià)也許可以得到更多不匹配的對(duì)照,從而擴(kuò)大樣本含量。從這個(gè)意義上說,匹配又降低了研究效率。增加匹配項(xiàng)目又會(huì)導(dǎo)致可能作為對(duì)照者的減少,無法找到可匹配對(duì)照的病例只得被剔除;一個(gè)項(xiàng)目一經(jīng)匹配不但使它與疾病的關(guān)系不能分析而且使它與其他研究因子的交互作用也不能充分分析。把不必要的項(xiàng)目列入匹配,企圖使病例與對(duì)照盡量一致,如果匹配的因素與暴露有聯(lián)系,就可能人為地造成更多的病例與對(duì)照暴露史一致的對(duì)子,徒然丟失信息,增加工作難度的結(jié)果反而是降低了研究效率。這種情況稱為匹配過度(over-matching),應(yīng)注意避免。
匹配的變量應(yīng)一致到什么程度,取決于變量的性質(zhì)、實(shí)際可能與必要:離散變量(即屬性,無中間值的變量)可以完全匹配,連續(xù)變量(在一定范圍內(nèi)可取任何值的變量)往往劃分為若干類或組,再按此匹配。例如按年齡分組、按血壓分組、按吸煙量分組匹配。分得太細(xì),會(huì)增加工作難度,也不一定必要,例如年齡要求同歲;但分得太粗,例如年齡按10歲分組,又達(dá)不到控制混淆作用的目的。
當(dāng)估計(jì)有許多可能的混淆因素需要控制時(shí),倘僅靠分層則因?qū)訑?shù)太多不能保證每層均有病例與對(duì)照,所以采用匹配以保證有效的分層分析。其次,有的列名變量包含許多類別或內(nèi)容復(fù)雜(例如職業(yè)、種族、居住地、籍貫、兄弟姊妹等),如是可能的混淆因子,應(yīng)加匹配。否則單靠分層不能控制混淆作用。
匹配可保證對(duì)照與病例在某些重要方面的可比性。對(duì)于小樣本研究以及因?yàn)椴±哪撤N構(gòu)成(例如年齡、性別構(gòu)成)特殊,隨機(jī)抽取的對(duì)照組很難與之平衡時(shí),個(gè)別匹配最為有用。
一般除性別、年齡之外,對(duì)于其他因素是否列入匹配須持慎重態(tài)度,以防止匹配過頭及徒增費(fèi)用和延長完成時(shí)間。