核酸是由很多單核苷酸聚合形成的多聚核苷酸(polynucleotide),DNA的一級結構即是指四種核苷酸(dAMP、dCMP、dGMP、dTMP)按照一定的排列順序,通過磷酸二酯鍵連接形成的多核苷酸,由于核苷酸之間的差異僅僅是堿基的不同,故又可稱為堿基順序。核苷酸之間的連接方式是:一個核苷酸的5′位磷酸與下一位核苷酸的3′-OH形成3′,5′磷酸二酯鍵,構成不分支的線性大分子,其中磷酸基和戊糖基構成DNA鏈的骨架,可變部分是堿基排列順序。核酸是有方向性的分子,即核苷酸的戊糖基的5′位不再與其它核苷酸相連的5′末端,以及核苷酸的戊糖基3′位不再連有其它核苷酸的3′末端,兩個末端并不相同,生物學特性也有差異。
寡核苷酸(oligonucleotide)是指二至十個甚至更多個核苷酸殘基以磷酸二酯鍵連接而成的線性多核苷酸片段。目前多由儀器自動合成而用作DNA合成的引物(Primer)、基因探針(probe)等,在現(xiàn)代分子生物學研究中具有廣泛的用途。
表示一個核酸分子結構的方法由繁至簡有許多種(圖15-2)。由于核酸分子結構除了兩端和堿基排列順序不同外,其它的均相同。因此,在核酸分子結構的簡式表示方法中,僅須注明一個核酸分子的哪一端是5′末端,哪一端是3′末端,末端有無磷酸基,以及核酸分子中的堿基順序即可。如未特別注明5′和3′末端,一般約定,堿基序列的書寫是由左向右書寫,左側是5′末端,右側為3′末端。
圖15-2 核酸分子結構的表示方式
自然界絕大多數(shù)生物體的遺傳信息貯存在DNA的核苷酸排列順序中。DNA是巨大的生物高分子,一般將細胞內(nèi)遺傳信息的攜帶者棗染色體所包含的DNA總體稱為基因組(genome)。同一物種的基因組DNA含量總是恒定的,不同物種間基因組大小和復雜程度則差異極大,一般講,進化程度越高的生物體其基因組構成越大、越復雜,見(表15-2)。
表15-2 某些有代表性的生物體內(nèi)DNA大小
分子量 | 堿基對(bp) | 千堿基對(kb) | ||
最簡單的微生物 | SV40病毒 | 3×106 | 5×103 | 5 |
λ噬菌體 | 3.4×107 | 5×104 | 50 | |
細菌 | 大腸桿菌 | 2.2×109 | 4.6×106 | 4600 |
哺乳動物 | 小鼠 | 1.5×1012 | 2.3×109 | 230萬 |
人 | 1.8×1012 | 2.8×109 | 280萬 |
DNA分子中不同排列順序的DNA區(qū)段構成特定的功能單位,即基因(gene);虻墓δ苋Q于DNA的一級結構。一個DNA分子能攜帶多少基因呢?如果以1000~1500bp編碼一個基因計算,猿猴病毒SV40基因組DNA有5000堿基對(base pair,bp),可編碼5種基因,人類基因組含3×109bp DNA,理論上可編碼200萬以上的基因,然而,由于哺乳動物的基因含有內(nèi)含子(intorn),因而每個基因可長達5000~8000bp,少數(shù)可達20,000bp。按這樣大小的基因進行推算,人類基因組相當于40~60萬個基因。這可能嗎?雖然現(xiàn)在還不知道確切數(shù)字,但利用核酸雜交已測得哺乳類細胞含50,000~100,000種mRNA,由此推論整個基因組所含基因不會超過10萬個,只占全部基因組的6%,另外5~10%為rRNA等重復基因,其余80~90%屬于非編碼區(qū),沒有直接的遺傳學功能。DNA的復性動力學研究發(fā)現(xiàn)這些非編碼區(qū)往往都是一些大量的重復序列,這些重復序列或集中成簇,或分散在基因之間,可能在DNA復制、調(diào)控中具有重要意義,并與生物進化、種族特異性有關?梢娫思毎捎贒NA分子較小,必須充分利用有限的核苷酸序列,這是真核基因組與原核基因組顯然不同之處。
真核基因組與原核基因組在結構上還有很多不同的特點,歸納如下:
1.真核生物基因組結構特點
①真核生物基因組DNA與蛋白質(zhì)結合形成染色體,儲存于細胞核內(nèi),除配子細胞外,體細胞內(nèi)的基因組是雙份的(即雙倍體,diploid),即有兩份同源的基因組。
②真核細胞基因轉(zhuǎn)錄產(chǎn)物為單順反子(monocistron),即一個結構基因轉(zhuǎn)錄、翻譯成一個mRNA分子,一條多肽鏈。
③存在大量重復序列,即在整個DNA中有許多重復出現(xiàn)的核苷酸順序,重復序列長度可長可短,短的僅含兩個核苷酸,長的多達數(shù)百、乃至上千。重復頻率也不盡相同;高度重復序列重復頻率可達106次,包括衛(wèi)星DNA、反向重復序列和較復雜的重復單位組成的重復序列;中度重復序列可達103~104次,如為數(shù)眾多的Alu家族序列,KpnI家族,Hinf家族序列,以及一些編碼區(qū)序列如rRNA基因、tRNA基因、組蛋白基因等;單拷貝或低度重復序列,指在整個基因組中只出現(xiàn)一次或很少幾次的核苷酸序列,主要是編碼蛋白質(zhì)的結構基因,在人基因組中占約60~65%,因此所含信息量最大。
④基因組中不編碼的區(qū)域多于編碼區(qū)域。
⑤基因是不連續(xù)的,在真核生物結構基因的內(nèi)部存在許多不編碼蛋白質(zhì)的間隔序列(interveningsequences),稱為內(nèi)含子(intron),編碼區(qū)則稱為外顯子(exon)。內(nèi)含子與外顯子相間排列,轉(zhuǎn)錄時一起被轉(zhuǎn)錄下來,然后RNA中的內(nèi)含子被切掉,外顯子連接在一起成為成熟的mRNAgydjdsj.org.cn,作為指導蛋白質(zhì)合成的模板。
⑥基因組遠大于原核生物的基因組,具有許多復制起點,而每個復制子的長度較小。
2.原核生物基因組結構特點
①基因組較小,沒有核膜包裹,且形式多樣,如病毒基因組可能是DNA,也可能是RNA,可能是單鏈的,也可能是雙鏈的,可能是閉環(huán)分子,也可能是線性分子;細菌染色體基因組則常為環(huán)狀雙鏈DNA分子,并與其中央的RNA和支架蛋白構成一致密的區(qū)域,稱為類核(nucleoid)。
②功能相關的結構基因常常串連在一起,并轉(zhuǎn)錄在同一個mRNA分子中,稱為多順反子mRNA(polycistronic mRNA),然后再加工成各種蛋白質(zhì)的模板mRNA。
③DNA分子絕大部分用于編碼蛋白質(zhì),不編碼部分(又稱間隔區(qū))通常包含控制基因表達的順序。例如,噬菌體ψx 174中只有5%是非編碼區(qū)。
④基因重疊是病毒基因組的結構特點,即同一段DNA片段能夠編碼兩種甚至三種蛋白質(zhì)分子。
⑤除真核細胞病毒外,基因是連續(xù)的,即不含內(nèi)含子序列。
隨著對基因認識的不斷深入,發(fā)現(xiàn)在同種生物的不同個體之間,盡管其蛋白質(zhì)產(chǎn)物的結構和功能完全相同或僅存在著細微的差異,但在DNA水平卻存在著差異,尤其在不編碼蛋白質(zhì)的區(qū)域以及沒有重要調(diào)節(jié)功能的區(qū)域表現(xiàn)更為突出。這種不影響生物體表型的DNA突變被稱為中性突變。
分子生物學技術的不斷發(fā)展已使得從DNA水平直接分析這類突變成為可能。
目前應用較多且成熟的方法是限制性片段長度多態(tài)性(Restriction fragment length polymorphism,RFLP)。即當DNA序列中某一個堿基發(fā)生突變,使突變所在部位的DNA序列獲得或丟失某種限制性核酸內(nèi)切酶位點;或當DNA分子內(nèi)部發(fā)生較大的順序突變?nèi)缛笔、重復、插入,或DNA高變區(qū)內(nèi)某串聯(lián)重復順序的拷貝數(shù)不同致使其兩側限制性核酸內(nèi)切酶位點發(fā)生相對位移時,利用相應的限制性核酸內(nèi)切酶消化此DNA,便會產(chǎn)生與正常不同的限制性片段。這樣,在同種生物的不同個體中就會出現(xiàn)不同長度的限制性片段類型。
因為DNA的中性突變常以孟德爾顯性遺傳方式遺傳給下一代,所以對這類突變檢測已廣泛用于遺傳病的診斷、產(chǎn)前診斷、親子鑒定以及法醫(yī)學上對罪犯的確認等。
(四)DNA序列分析(DNa sequencing)
DNA的一級結構決定了基因的功能,欲想解釋基因的生物學含義,首先必須知道其DNA順序。因此DNA序列分析是分子遺傳學中一項既重要又基本的課題。
1986年由美國學者提出的,目前正在實施的人類基因組計劃(human genome project),則是要通過對人類基因組3×109bp全序列的序列分析和人類基因的染色體圖譜制定達到了解其結構,認識其功能,即從分子遺傳學水平來認識人類自身的結構和功能特征的目的。
核酸的核苷酸序列測定方法已經(jīng)過近20年的發(fā)展,因而測序的具體方法五花八門、種類繁多。但是究其所依據(jù)的基本原理,不外乎Sanger的核酸鏈合成gydjdsj.org.cn/kuaiji/終止法及Maxam和Gilbert的化學降解法兩大類。雖然原理不同,但這兩種方法都同樣生成互相獨立的若干組帶放射性標記的寡核苷酸,每組寡核苷酸都有固定的起點,但卻隨機終止于特定的一種或多種殘基上。由于DNA鏈上每一個堿基出現(xiàn)在可變終止端的機會均等,因而上述每一組產(chǎn)物都是一些寡核苷酸的混合物,這些寡核苷酸的長度由某一種特定堿基在原DNA片段上的位置所決定。然后在可以區(qū)分長度僅相差一個核苷酸的不同DNA分子的條件下,對各組寡核苷酸進行電泳分析,只要把幾組寡核苷酸加樣于測序凝膠中若干個相鄰的泳道之上,即可從凝膠的放射自顯影片上直接讀出DNA上的核苷酸順序。以下分別介紹。
1.Sanger雙脫氧鏈終止法
DNA的合成總是從5′端向3′端進行的。DNA的合成需要模板以及相應的引導核酸鏈。DNA的合成過程中,在合成的DNA鏈的3′末端,依據(jù)堿基配對的原則,通過生成新的3′,5′-磷酸二酯鍵,使DNA鏈合成終止,產(chǎn)生短的DNA鏈。具體測序工作中,平行進行四組反應,每組反應均使用相同的模板,相同的引物以及四種脫氧核苷酸;并在四組反應中各加入適量的四種之一的雙脫氧核苷酸,使其隨機地接入DNA鏈中,使鏈合成終止,產(chǎn)生相應的四組具有特定長度的、不同長短的DNA鏈。這四組DNA鏈再經(jīng)過聚丙烯酸胺凝膠電泳按鏈的長短分離開,經(jīng)過放射自顯影顯示區(qū)帶,就可以直接讀出被測DNA的核苷酸序列(圖15-3)。
圖15-3 雙脫氧鏈終止法測定DNA序列原理示意
2.MaxamGilbert DNA化學降解法
這一方法的基本步驟為(1)先將DNA的末端之一進行標記(通常為放射性同位素32P;(2)在多組互相獨立的化學反應中分別進行特定堿基的化學修飾;(3)在修飾堿基位置化學法斷開DNA鏈;(4)聚丙烯酰胺凝膠電泳將DNA鏈按長短分開;(5)根據(jù)放射自顯影顯示區(qū)帶,直接讀出DNA的核苷酸序列(圖15-4)。
圖15-4 化學裂解法測定DNA的核苷酸序列