人類基因組
人類基因組,又稱人類基因體,是指人的基因組,由23對染色體組成,其中包括22對常染色體,1對性染色體。人類基因組含有約31.6億個DNA鹼基對,鹼基對是以氫鍵相結合的兩個含氮鹼基,以胸腺嘧啶(T)、腺嘌呤(A)、胞嘧啶(C)和鳥嘌呤(G)四種鹼基排列成鹼基序列,其中A與T之間由兩個氫鍵連接,G與C之間由三個氫鍵連接,鹼基對的排列在DNA中也只能是A對T,G對C。其中一部分的鹼基對組成了大約20000到25000個基因。
全世界的生物學與醫學界在人類基因組計劃中,調查人類基因組中的真染色質基因序列,發現人類的基因數量比原先預期的少得多,其中的外顯子,也就是能夠製造蛋白質的編碼序列,只占總長度的約1.5%。
目錄
組成
染色體 人類基因組是由23對染色體(共46個)所構成,每一個染色體皆含有數百個基因,在基因與基因之間,會有一段可能含有調控序列和非編碼DNA的基因間區段。人類擁有24種不同的染色體,其中有22個屬於體染色體,另外還有兩個能夠決定性別的性染色體,分別是X染色體與Y染色體。1號到22號染色體編號順序,大致符合他們由大到小的尺寸排列。最大的染色體約含有2億5千萬個鹼基對,最小的則約有3800萬個鹼基對。這些染色體通常以細絲狀存於細胞核內,若將單一細胞內的染色體拉成直線,那麼將大約有6英尺長(1英尺=30.48公分)。
在人類個體的體細胞中,通常含有來自親代的1到22對體染色體,再加上來自母親的X染色體,以及來自父親的X或Y染色體,總共是46個(23對)染色體。科學家將這些染色體分為7組:1號到3號是A組;4號與5號是B組;X染色體以及6號到12號是C組;13號到15號是D組;16號到18號是E組;19號與20號是F組;21號、22號與Y染色體是G組[4]。對於一般人類來說,每個細胞核內只有兩套染色體。
基因 人類與其他物種的基因組比較(大約)
學名 中文名 鹼基對數量 基因數量 Mycoplasma genitalium 霉漿菌(生殖器支原體) 580,000 500 Streptococcus pneumoniae 肺炎雙球菌 2,200,000 2,300 Haemophilus influenzae 流感嗜血桿菌 4,600,000 1,700 Escherichia coli 大腸桿菌 4,600,000 4,400 Saccharomyces cerevisiae 釀酒酵母 12,000,000 5,538 Caenorhabditis elegans 秀麗隱杆線蟲 97,000,000 18,250 Arabidopsis thaliana 阿拉伯芥(擬南芥) 125,000,000 25,500 Drosophila melanogaster 黑腹果蠅 180,000,000 13,350 Oryza sativa 亞洲稻 466,000,000 45,000-55,000 Mus musculus 家鼠 2,500,000,000 29,000 Homo sapiens 人類 2,900,000,000 27000 人體內估計約有20000到25000個蛋白質編碼基因。原本這個估計的數目超過100000,在更好的基因組序列品質與基因識別技術出現之後,才逐漸向下修正為現在的數字。雖然人類的基因數量比起某些較為原始的生物更少,但是在人類細胞中使用了大量的選擇性剪接(alternative splicing,又譯「可變剪切」,將轉錄產物中穿插在內含子中的外顯子以選擇性的方式進行剪切及保留,形成不同的RNA剪切產物),這使得一個基因能夠製造出多種不同的蛋白質,且人類的蛋白質組規模也較前述的兩個物種更龐大。也就是說,長期的進化,使得基因的編碼效率更高了。
大多數人類基因擁有許多的外顯子,且人類的內含子比位在其兩端的外顯子更長。這些基因參差不齊地分布在染色體中,每一個染色體皆含有一些基因較多的區段與基因較少的區段。這些區段的差異,則與染色體帶(chromosome bands)及GC含量相關。基因密度所顯現的非隨機模式之涵義與重要性尚未明了。
除了蛋白質編碼基因之外,人類的基因組還包含了數千個RNA基因(由RNA組成),其中包括用來轉錄轉運RNA(tRNA)、核糖體RNA(rRNA)與信使RNA(mRNA)的基因。其中轉錄rRNA的基因稱為rDNA,分布在許多不同的染色體上。
調控序列 人類基因組含有許多不同的調控序列,並以此來控制基因表現。這些序列是典型的短序列,會出現在靠近基因的位置。由於高通量表達(high-throughput expression;指利用電腦與機器輔助以進行大量的序列分析)技術與比較基因組學研究的出現,人們開始系統性地了解這些調控序列,以及它們共同構成的基因調控網絡(gene regulatory network)。
人們之所以能夠出辨認哪些基因序列是調控序列,是因為生物在演化過程中對基因的保留。以大約7千萬年前到9千萬年前分支的人類與老鼠為例:若以電腦比較兩者的基因序列,並且將兩者皆保有的非編碼序列辨識出來,就可以知道哪些基因序列可能對於基因調控來說相當重要。
人類所擁有的調控序列所在位置,可以利用河豚的基因定位出來。因為河豚與人類擁有相同的基因,同時也擁有和人類相同的調控序列,但是「垃圾」基因比人類更少。如此較為簡潔的DNA序列,使得調控基因的位置較容易定位。
其他DNA 蛋白質編碼序列(也就是外顯子)在人類基因組中少於1.5%。在基因與調控序列之外,仍然有許多功能未知的廣大區域。科學家估計這些區域在人類基因組中約占有97%,其中許多是屬於重複序列(repeated sequence)、轉座子(transposon)與假基因(pseudogene)。除此之外,還有大量序列不屬於上述的已知分類。
這些序列大多數可能是演化的產物,現在已經沒有作用,也因此有時會被稱作是「垃圾DNA」(junk DNA)[9]。不過有一些跡象顯示,這些序列可能會經由某些仍然未知的方式產生作用。最近一些使用微陣列技術所作的實驗發現,大量非基因DNA事實上會被轉錄成為RNA[10],這顯示轉錄作用背後可能還存在一些未知的機制。此外,不同種類的哺乳動物在演化的過程中共同保留了這些序列,也顯示基因組中還有很多作用未知的部分。人類基因組內大量功能未知的序列,是目前科學研究的重點之一。
變異 大多數對於人類遺傳變異的研究集中在單核苷酸多態性(single nucleotide polymorphisms;SNPs),也就是DNA中的個別鹼基變換。科學家分析估計,在人類的富含基因的染色質中,平均每100到1000個鹼基會出現1個SNPs,不過密度並不均勻。由於SNPs的存在,如「所有人類的基因有99%都是相同的」一的說法並不精確。國際人類基因組單體型圖計劃(International HapMap Project),便是為了要將人類基因組中的SNP變異作編錄,而組成的一個大規模合作計劃。
基因組中有一些小型的重複序列,它們所擁有的基因座與基因長度,在不同的人類個體之間有很大的變異性。這也是DNA指紋(DNA fingerprinting)與親子鑑定(paternity testing)技術得以應用的基礎。異染色質(heterochromatin)是人類基因組的一些部分,總共包括有數百萬個鹼基對,這些鹼基對在人類族群之中的變異性也相當大。而且由於異染色質的重複性很高而且長度很長,因此目前的技術仍然無法精確地解出它們的序列。
配子細胞中大多數的基因組突變,可能會造成胚胎不正常發育,而人類的一些疾病也與大尺度的基因組異常有關。例如唐氏症、透納氏症(Turner Syndrome),以及許多其他疾病,是染色體的不分離(nondisjunction)現象所造成。在癌細胞中的染色體,則是頻繁地出現非整倍性(aneuploidy)現象,不過這種現象與癌症之間的關係仍然不明。
2006年一篇發表在《自然》的研究報告中,研究人員發現在人類與其他哺乳類DNA序列中的拷貝數變異(copy number variation;CNV),可能非常重要。拷貝數變異又稱為拷貝數多型性(copy number polymorphisms;CNPs),是刪除、插入(insertion)、複寫(duplication),以及複雜多位置變異(complex multi-site variants)的合稱,在所有人類以及其他已測試的哺乳動物中皆可發現。
線粒體 大多數的基因是存在細胞核中,但是細胞中一個稱為粒線體的胞器,也擁有自己的基因組。粒線體基因組在線粒體疾病(mitochondrial disease)中具有一定的重要性。而且這些基因也可以用來研究人類的演化,舉例而言,若分析人類粒線體基因組的變異情況,將能夠使科學家描繪出人類的共同祖先,稱為「線粒體夏娃」(Mitochondrial Eve)。之所以稱為夏娃,是因為粒線體是位於細胞質中,而人類的精子與卵子結合時,源自母親(女性)的卵子提供了絕大多數的細胞質,因此人類細胞中的粒線體基因皆是來自母親。
由於粒線體缺乏用來檢查複製錯誤的能力,因此粒線體DNA(mDNA)的變異速率比細胞核DNA(一般所指的DNA)更快。粒線體的突變速率快了20倍,這使mDNA能夠用來較為精確地追溯出母系祖先。研究族群中的mDNA,也能使人們得知此族群過去的遷移路徑,例如來自西伯利亞的美洲原住民;以及來自東南亞的波里尼西亞人。更有甚者,mDNA研究顯示在歐洲人的基因中並無參雜尼安德塔人的DNA。
與每個細胞核皆只有兩套染色體組成的核基因組不同,粒線體基因組在每個粒線體當中,皆有大約10個以環狀DNA,整個細胞里則約有8000個。每個環DNA上有16569個鹼基對,共組成37個基因,其中13個是蛋白質編碼,22個是RNA基因。這些基因大多與呼吸作用有關。
基本資料
現代遺傳學家認為,基因是DNA(脫氧核糖核酸)分子上具有遺傳效應的特定核苷酸序列的總稱,是具有遺傳效應的DNA分子片段。基因位於染色體上,並在染色體上呈線性排列。基因不僅可以通過複製把遺傳信息傳遞給下一代,還可以使遺傳信息得到表達。不同人種之間頭髮、膚色、眼睛、鼻子等不同,是基因差異所致。
人類只有一個基因組,大約有2-3萬個基因。人類基因組計劃是美國科學家於1985年率先提出的,旨在人類基因組闡明30億個鹼基對的序列,發現所有人類基因並搞清其在染色體上的位置,破譯人類全部遺傳信息,使人類第一次在分子水平上全面地認識自我。計劃於1990年正式啟動,這一價值30億美元的計的目標是,為30億個鹼基對構成的人類基因組精確測序,從而最終弄清楚每種基因製造的蛋白質及其作用。打個比方,這一過程就好像以步行的方式畫出從北京到上海的路線圖,並標明沿途的每一座山峰與山谷。雖然很慢,但非常精確。
隨着人類基因組逐漸被破譯,一張生命之圖將被繪就,人們的生活也將發巨大變化。基因藥物已經走進人們的生活,利用基因治療更多的疾病不再是一個奢望。因為隨着我們對人類 本身的了解邁上新的台階,很多疾病的病因將被揭開,藥物就會設計得更好些,治療方案就能「對因下藥」,生活起居、飲食習慣有可能根據基因情況進行調整,人類的整體健康狀 況將會提高,二十一世紀的醫學基礎將由此奠定。
利用基因,人們可以改良果蔬品種,提高農作物的品質,更多的轉基因植物和動物、食品將問世,人類可能在新世紀裡培育出超級物作。通過控制人體的生化特性,人類將能夠恢復或修復人體細胞和器官的功能,甚至改變人類的進化過程。
人類基因組計劃的目的
測出人類基因組DNA的30億個鹼基對的序列,發現所有的人類基因,找出它們在染色體上的位置,破譯人類全部遺傳信息。
遺傳疾病
當一個或多個基因發生不正常表現時,便可能會使某個相對應的表型產生一些症狀。遺傳異常的原因包括了基因突變、染色體數目異常,或是三聯體擴張重複突變(triplet expansion repeat mutations)。如果受損的基因會從親代遺傳到子代,那就會成為一種遺傳性疾病。目前已知有大約4000種遺傳疾病,囊腫性纖維化是其中最普遍的疾病之一。科學家通常會以群體遺傳學的方法進行遺傳疾病的研究,對於疾病的治療,則是由一些經過臨床遺傳學訓練,且同時也是遺傳學家的醫生來進行。人類基因組計劃的成果,使遺傳檢測技術能夠更有效地檢查出一些與基因有關的疾病,並且改進治療方法。父母能夠透過遺傳諮詢來偵詢一些遺傳症狀的嚴重性、遺傳的機率,以及如何避免或是改善這些症狀。
基因劑量(Gene dosage)會對人類的表現型產生龐大的影響,對於染色體中造成疾病的複寫、省略與分裂等現象的形成擁有一定的角色。例如唐氏症患者(21號染色體為三體)有較高的比率得到阿茲海默症,可能是因為與阿茲海默症有關的類澱粉前趨蛋白基因(位在21號染色體上)的過度表現所致。而且相對而言,唐氏症患者中則有較低的比率得到乳癌,可能是因為腫瘤抑制基因(tumor-suppressor gene)的過度表現。
演化
比較基因組學(Comparative genomics)對於哺乳類基因組的研究顯示,人類與大約兩億年前就已經分化的各物種相比,有大約5%的比例在人類基因組中保留了下來,其中包含許多的基因與調控序列。而且人類與大多數已知的脊椎動物間,也享有了一些相同的基因。
黑猩猩的基因組與人類的基因組之間,有98.77%是相似的。而平均每一個屬於人類的標準蛋白質編碼基因,只與屬於黑猩猩的同源基因相差兩個氨基酸;並且有將近三分之一的人類基因與黑猩猩的同源基因,能夠轉譯出相同的蛋白質。人類的2號染色體,是人類與黑猩猩基因組之間的主要差異,這一條染色體是由黑猩猩的染色體12號與13號融合而成。
人類在晚近的演化過程中失去了嗅覺受器基因,這解釋了為何人類比起其他的哺乳動物來說,擁有較差的嗅覺。演化上的證據顯示,人類與某些靈長類所擁有的彩色視覺,降低了這些物種對於嗅覺能力的需求。
研究
人類基因組計劃
人類基因組計劃(human genome project,HGP)是由美國科學家於1985年率先提出,於1990年正式啟動的。美國、英國、法蘭西共和國、德意志聯邦共和國、日本國和中國科學家共同參與了這一價值達30億美元的人類基因組計劃。這一計劃旨在為30多億個鹼基對構成的人類基因組精確測序息。與曼哈頓計劃和阿波羅計劃並稱為三大科學計劃。
2000年6月26日,參加人類基因組工程項目的美國、英國、法蘭西共和國、德意志聯邦共和國、日本國和中國的6國科學家共同宣布,人類基因組草圖的繪製工作已經完成。最終完成圖要求測序所用的克隆能忠實地代表常染色體的基因組結構,序列錯誤率低於萬分之一。95%常染色質區域被測序,每個Gap小於150kb。完成圖將於2003年完成,比預計提前2年。
美國和英國科學家2006年5月18日在英國《自然》雜誌網絡版上發表了人類最後一個染色體——1號染色體的基因測序。在人體全部22對常染色體中,1號染色體包含基因數量最多,達3141個,是平均水平的兩倍,共有超過2.23億個鹼基對,破譯難度也最大。一個由150名英國和美國科學家組成的團隊歷時10年,才完成了1號染色體的測序工作。科學家不止一次宣布人類基因組計劃完工,但推出的均不是全本,這一次殺青的「生命之書」更為精確,覆蓋了人類基因組的99.99%。解讀人體基因密碼的「生命之書」宣告完成,歷時16年的人類基因組計劃書寫完了最後一個章節。
中國參與
1999年7月7日,中國科學院遺傳研究所人類基因組中心註冊參與國際人類基因組計劃;同年9月,國際協作組接受了申請,並為中國劃定了所承擔的工作區域——位於人類第3號染色體短臂上。人類基因組計劃的核心內容是構建DNA序列圖,即分析人類基因組DNA分子的基本成分——鹼基的排列順序,並繪製成序列圖。中國所負責區域的測序任務由中國科學院基因組信息學中心、國家人類基因組南方中心、國家人類基因組北方中心共同承擔,測定了3.84億個鹼基,所有指標均達到國際人類基因組計劃協作組對「完成圖」的要求。2003年4月15日,美、英、日、法、德、中6國領導人聯名發表《六國政府首腦關於完成人類基因組序列圖的聯合聲明》,宣告人類基因組計劃圓滿完成。中國高質量完成人類基因組計劃中所承擔的測序任務,表明中國在基因組學研究領域已達到國際先進水平。
專利問題
24條染色體上的專利數目 染色體編號 基因數目 專利數目 1號 2769 504 2號 1776 330 3號 1445 307 4號 1023 215 5號 1261 254 6號 1401 225 7號 1410 232 8號 952 208 9號 1086 233 10號 1042 170 11號 1626 312 12號 1347 252 13號 477 97 14號 821 155 15號 915 141 16號 1139 192 17號 1471 313 18號 408 74 19號 1715 270 20號 762 178 21號 357 66 22號 106 657 X 1090 200 Y 144 14 3號 1445 307 由中國測定,從1999年9月開始,不到一年完成。其中包括與肺癌、卵巢癌、鼻咽癌等有關的基因。
從1981年到1995年間,全世界共有1175件DNA序列的專利許可。早期的申請對象主要是機能已知的基因,後來原屬於美國國家衛生研究院的克萊格·凡特,將2716件尚未了解功能的基因,反轉錄成cDNA型式,並且提交專利申請。這些申請受到了當時掌管NIH基因組部門的詹姆士·華生等許多科學家的反對,並且被專利局駁回。
目前人們對於基因資訊是否應該登記專利仍有爭議。由於學術研究並非營利性,因此通常不受這些專利所拘束。此外由於美國政府近年來將專利申請條件提高,因此與DNA有關的專利許可,在2001年之後已逐漸減少。到2005年4月為止,美國國家生計資訊中心所記載的基因資料中,有82%沒有專利標示,另外有14%屬於私人機構,3%屬於公家單位。
右表顯示2006年時每條染色體上的基因數目與專利數目,由於有時候會有多個基因登記成一項專利;或者是一個基因擁有多項專利,因此表中的基因與專利不一定有一對一的關係。
圖譜
基因組圖譜主要可以分成兩種,一種是遺傳圖譜(genetic map),另一種則是物理圖譜(physical map)。遺傳圖譜是利用基因的重組率來做分析,單位是摩根(morgan)。這種圖譜表現出來的是基因或特定DNA片段之間的相對位置,而不是它們各自的絕對位置。物理圖譜則是DNA兩點的實際距離,是實際將DNA片段排序而得,單位是鹼基的數目(如Kb;kilobase)。有時候物理圖譜上相隔很遠的基因,可能會因為發生互換的機率較少(雖然理論上相隔愈遠互換率愈高),而在遺傳圖譜上顯得較相近。人類基因組計劃的研究現狀與展望------發表日期:2004年3月30日
3D圖譜
華中農大阮一駿教授最新揭示了基因如何相互作用影響,包括遠程相互作用的機制,這將有利於科學家們深入了解人類基因工作的原理,以及探索相關疾病的遺傳機制。這一成果公布在Cell雜誌上。
這項新發現就揭示出,雖然人類基因組中的基因相互相隔甚遠,但是相關的基因實際上能通過長距離的染色體相互作用,以及高度有序的染色體構架,有序的進行組織。這表明人類細胞中存在一種類似細胞操縱系統的拓撲學機制,能幫助轉錄調控,而這種拓撲調控機制也有助於解析人類基因中的遺傳元素。
這項由阮一駿博士完成的研究成果解決了基因之間,以及開啟或者關閉基因的人類基因組元件之間,如何相互溝通的基礎性問題。他們利用一種稱為ChIA-PET的DNA圖譜技術,從三維結構上揭示了人類基因組中基因,如何在恰當的時間裡相互影響,基因激活的。我認為這項成果將會很快從基礎科研文獻中,進入課本,幫助學生們更好的理解人類基因組的操控原理。而ChIA-PET技術,作為人類基因組探索的『望遠鏡』,也將成為一種具有創新性,重要的分子分析工具。
研究現狀
1、人類基因組測序
1990年~1998年,人類基因組序列已完成和正在測序的共計約330Mb,占人基因組的11%左右;已識別出人類疾病相關的基因200個左右。此外,細菌、古細菌、支原體和酵母等17種生物的全基因組的測序已經完成。
值得一提的是,企業與研究部門的攜手,將大大地促進測序工作的完成。美國的基因組研究所(The Institute of Genome Research,TIGR)與PE(Perkin-Elmar)公司合作建立新公司,三年內投資2億美元,預計於2002年完成全序列的測定。這一進度將比美國政府資助的HGP的預定目標提前三年。美國加州的一家遺傳學數據公司(Incyte)宣布(1998年〕,兩年內測定基因組中的蛋白質編碼序列以及密碼子中的單核苷酸的多態性,最後將繪製一幅人的10萬個基因的定位圖。與Incyte公司合作的HGS(Human Genome Science)公司的負責人宣稱,截止1998年8月,該公司已鑑定出10萬多個基因(人體基因約為12萬個),並且得到了95%以上基因的EST(expressed sequence tag)或其部分序列。
1998年9月14日美國國家人類基因組計劃研究所(NHGRI)和美國能源部基因組研究計劃的負責人在一次諮詢會議上宣布,美國政府資助的人類基因組計劃將於2001年完成大部分蛋白質編碼區的測序,約占基因組的三分之一,測序的差錯率不超過萬分之一。同時還要完成一幅「工作草圖」,至少覆蓋基因組的90%,差錯率為百分之一。2003年完成基因組測序,差錯率為萬分之一。這一時間表顯示,計劃將比開始的目標提前兩年完成。
疾病基因的定位克隆
人類基因組計劃的直接動因是要解決包括腫瘤在內的人類疾病的分子遺傳學問題。6000多個單基因遺傳病和多種大面積危害人類健康的多基因遺傳病的致病基因及相關基因,代表了對人類基因中結構和功能完整性至關重要的組成部分。所以,疾病基因的克隆在HGP中占據着核心位置,也是計劃實施以來成果最顯著的部分。
在遺傳和物理作圖工作的帶動下,疾病基因的定位、克隆和鑑定研究已形成了,從表位→蛋白質→基因的傳統途徑轉向「反求遺傳學」或「定位克隆法」的全新思路。隨着人類基因圖的完成,3000多個人類基因已被精確地定位於染色體的各個區域。今後,一旦某個疾病位點被定位,就可以從局部的基因圖中遴選出相關基因進行分析。這種被稱為「定位候選克隆」的策略,將大大提高發現疾病基因的效率。
多基因病的研究
目前,人類疾病的基因組學研究已進入到多基因疾病這一難點。由於多基因疾病不遵循孟德爾遺傳規律,難以從一般的家系遺傳連鎖分析取得突破。這方面的研究需要在人群和遺傳標記的選擇、數學模型的建立、統計方法的 改進等方面進行艱苦的努力。近來也有學者提出,用比較基因表達譜的方法來識別疾病狀態下基因的激活或受抑。實際上,「癌腫基因組解剖學計劃(Cancer Genome Anatomy Project,CGAP」就代表了在這方面的嘗試。
中國的人類基因組研究
國際HGP 研究的飛速發展和日趨激烈的基因搶奪戰已引起了中國政府和科學界的高度重視。在政府的資助和一批高水平的生命科學家帶領下,中國已建成了一批實力較強的國家級生命科學重點實驗室,組建了北京、上海人類基因組研究中心。有了研究人類基因組的條件和基礎,並引進和建立了一批基因組研究中的新技術。中國的HGP在多民族基因保存、基因組多樣性的比較研究方面取得了令人滿意的成果,同時在白血病、食管癌、肝癌、鼻咽癌等易感基因研究方面亦取得了較大進展。
首先建立了寡核苷酸引物介導的人類高分辨染色體顯微切割和顯微基因克隆技術;已建立的17種染色體特異性DNA文庫和24種染色體區特異性DNA文庫及其探針;構建了人X染色體YAC圖譜,已完成了人X染色體Xp11.2-p21.3跨度的約35cM STS-YAC圖譜的構建;建立了YAC-cDNA篩選技術。
目前的研究工作還包括:疾病和功能相關新基因的分離、測序和克隆的技術和方法學的創新研究;中國少數民族HLA分型研究及特種基因的分析; 人胎腦cDNA文庫的構建和新基因的克隆研究。
中國是世界上人口最多的國家,有56 個民族和極為豐富的病種資源,並且由於長期的社會封閉,在一些地區形成了極為難得的族群和遺傳隔離群,一些多世代、多個體的大家系具有典型的遺傳性狀,這些都是克隆相關基因的寶貴材料。但是,由於中國的HGP 研究工作起步較晚、底子薄、資金投入不足,缺乏一支穩定的、高素質的青年生力軍, 中國的HGP 研究工作與國外近年來的驚人發展速度相比,差距還很大,並且有進一步加大的危險。如果我們在這場基因爭奪戰中不能堅守住自己的陣地,那麼在21 世紀的競爭中我們又將處於被動地位:我們不能自由地應用基因診斷和基因治療的權力,我們不能自由地進行生物藥物的生產和開發,我們亦不能自由地推動其他基因相關產業的發展。 == 展望 == 生命科學工業的形成
由於基因組研究與製藥、生物技術、農業、食品、化學、化妝品、環境、能源和計算機等工業部門密切相關,更重要的是基因組的研究可以轉化為巨大的生產力,國際上一批大型製藥公司和化學工業公司大規模紛紛投巨資進軍基因組研究領域,形成了一個新的產業部門,即生命科學工業。
世界上一些大的製藥集團紛紛投資建立基因組研究所。Ciba-Geigy 和Ssandoz合資組建了Novartis 公司,並斥資2.5億美元建立研究所,開展基因組研究工作。Smith Kline 公司花1.25億美元加快測序的進度,將藥物開發項目的25%建立在基因組學之上。Glaxo-Wellcome 在基因組研究領域投入4,700萬美元,將研究人員增加了一倍。
大型化學工業公司向生命科學工業轉軌。孟山都公司早在1985年就開始轉向生命科學工業。至1997年,該公司向生物技術和基因組研究的投入已高達66億美元。1998年4月,杜邦公司宣布改組成三個實業單位,由生命科學領頭。1998年5月,該公司又宣布放棄能源公司Conaco,將其改造成一家生命科學公司。Dow化學公司用9億美元購入Eli Lilly公司40%的股票,從事穀物和食品研究,後又成立了生命科學公司。Hoechst公司則出售了它的基本化學品部門,轉項投資生物技術和製藥。
傳統的農業和食品部門也出現了向生物技術和製藥合併的趨勢。Genzyme Transgenics 公司培養出的基因工程羊能以較高的產量生產抗凝血酶III,一群羊的酶產量相當於投資1.15億美元工廠的產量。據估計,轉基因動物生產的藥物成本是大規模細胞培養法的十分之一。一些公司還在研究生產能抗骨質疏鬆的穀物,以及大規模生產和加工基因工程食品。
能源、採礦和環境工業也已在分子水平上向基因組研究匯合。例如,用產甲烷菌Methanobacterium 作為一種新能源。用抗輻射的細菌Deinococcus radiodurans清除放射性物質的污染,並在轉入tod基因後,在高輻射環境下清除多種有害化學物質的污染。[1]
功能基因組學
人類基因組計劃當前的整體發展趨勢是什麼?一方面,在順利實現遺傳圖和物理圖的製作後,結構基因組學正在向完成染色體的完整核酸序列圖的目標奮進。另一方面,功能基因組學已提上議事日程。人類基因組計劃已開始進入由結構基因組學向功能基因組學過渡、轉化的過程。在功能基因組學研究中,可能的核心問題有:基因組的表達及其調控、基因組的多樣性、模式生物體基因組研究等。
基因組的表達及其調控
1)基因轉錄表達譜及其調控的研究
一個細胞的基因轉錄表達水平能夠精確而特異地反映其類型、發育階段以及反應狀態,是功能基因組學的主要內容之一。為了能夠全面地評價全部基因的表達,需要建立全新的工具系統,其定量敏感性水平應達到小於1個拷貝/細胞,定性敏感性應能夠區分剪接方式,還須達到檢測單細胞的能力。近年來發展的DNA微陣列技術,如DNA芯片,已有可能達到這一目標。
研究基因轉錄表達不僅是為了獲得全基因組表達的數據,以作為數學聚類分析。關鍵問題是要解析控制整個發育過程或反應通路的基因表達網絡的機制。網絡概念對於生理和病理條件下的基因表達調控都是十分重要的。一方面,大多數細胞中基因的產物都是與其它基因的產物互相作用的;另一方面,在發育過程中大多數的基因產物都是在多個時間和空間表達並發揮其功能,形成基因表達的多效性。在一個意義上,每個基因的表達模式只有放到它所在的調控網絡的大背景下,才會有真正的意義。進行這方面的研究,有必要建立高通量的小鼠胚胎原位雜交技術。
2)蛋白質組學研究
蛋白質組學研究是要從整體水平上研究蛋白質的水平和修飾狀態。目前正在發展標準化和自動化的二維蛋白質凝膠電泳的工作體系。首先用一個自動系統來提取人類細胞的蛋白質,繼而用色譜儀進行部分分離,將每區段中的蛋白質裂解,再用質譜儀分析,並在蛋白質數據庫中通過特徵分析來認識產生的多肽。
蛋白質組研究的另一個重要內容是建立蛋白質相互關係的目錄。生物大分子之間的相互作用構成了生命活動的基礎。組裝基因組各成分間的詳盡作圖已在T7噬菌體(55個基因)獲得成功。如何在模式生物(如酵母)和人類基因組的研究中建立自動方法,認識不同的生化通路,是值得探討的問題。
3)生物信息學的應用
目前,生物信息學已大量應用於基因的發現和預測。然而,利用生物信息學去發現基因的蛋白質產物的功能更為重要。模式生物體中越來越多的蛋白質構建編碼單位被識別,無疑為基因和蛋白質同源關係的搜尋和家族的分類提供了極其寶貴的信息。同時,生物信息學的算法、程序也在不斷改善,使得不僅能夠從一級結構,也能從估計結構上發現同源關係。但是,利用計算機模擬所獲得的理論數據,還需要經過實驗經過的驗證和修正。
基因組多樣性的研究
人類是一個具有多態性的群體。不同群體和個體在生物學性狀以及在對疾病的易感性與抗性上的差別,反映了進化過程中基因組與內、外部環境相互作用的結果。開展人類基因組多樣性的系統研究,無論對於了解人類的起源和進化,還是對於生物醫學均會產生重大的影響。
1)對人類DNA的再測序
可以預測,在完成第一個人類基因組測序後,必然會出現對各人種、群體進行再測序和精細基因分型的熱潮。這些資料與人類學、語言學的資料相結合,將有可能建立一個全人類的數據庫資源,從而更好地了解人類的歷史和自身特徵。另外,基因組多樣性的研究將成為疾病基因組學的主要內容之一,而群體遺傳學將日益成為生物醫藥研究中的主流工具。需要對各種常見多因素疾病(如高血壓、糖尿病和精神分裂症等)的相關基因及癌腫相關基因在基因組水平進行大規模的再測序,以識別其變異序列。
2)對其它生物的測序
對進化過程各個階段的生物進行系統的比較DNA測序,將揭開生命35億年的進化史。這樣的研究不僅能勾畫出一張詳盡的系統進化樹,而且將顯示進化過程中最主要的變化所發生的時間及特點,比如新基因的出現和全基因組的複製。
認識不同生物中基因序列的保守性,將能夠使我們有效地認識約束基因及其產物的功能性的因素。對序列差異性的研究則有助於認識產生大自然多樣性的基礎。在不同生物體之間建立序列變異與基因表達的時空差異之間的相關性,將有助於揭示基因的網絡結構。
開展對模式生物體的研究
1)比較基因組研究
在人類基因組的研究中,模式生物體的研究占有極其重要的地位。儘管模式生物體的基因組的結構相對簡單,但是它們的核心細胞過程和生化通路在很大程度上是保守的。這項研究的意義是:1〕有助於發展和檢驗新的相關技術,如大規模測序、大規模表達譜檢驗、大規模功能篩選等;2〕通過比較和鑑定,能夠了解基因組的進化,從而加速對人類基因組結構和功能的了解;3〕模式生物體間的比較研究,為闡明基因表達機制提供了重要的線索。
目前對於基因組總體結構組成方面的知識,主要來源於模式生物體的基因組序列分析。通過對不同物種間基因調控序列的計算機分析,已發現了一定比例的保守性核心調控序列。根據這些序列建立的表達模式數據庫對破譯基因調控網絡提供了必要的條件。
2)功能缺失突變的研究
識別基因功能最有效的方法,可能是觀察基因表達被阻斷後在細胞和整體所產生的表型變化。在這方面,基因剔除方法(knock-out)是一項特別有用的工具。目前。國際上已開展了對酵母、線蟲和果蠅的大規模功能基因組學研究,其中進展最快的是酵母。歐共體為此專門建立了一個稱為EUROFAN(European Functional Analysis Network)的研究網絡。美國、加拿大和日本也啟動了類似的計劃。
隨着線蟲和果蠅基因組測序的完成,將來也可能開展對這兩種生物的類似性研究。一些突變株系和技術體系建立後,不僅能夠成為研究單基因功能的有效手段,而且為研究基因冗餘性和基因間的相互作用等深層次問題奠定了基礎。小鼠作為哺乳動物中的代表性模式生物,在功能基因組學的研究中展有特殊的地位。同源重組技術可以破壞小鼠的任何一個基因,這種方法的缺點是費用高。利用點突變、缺失突變和插入突變造成的隨機突變是另一中可能的途徑。對於人體細胞而言,建立反義寡核苷酸和核酶瞬間阻斷基因表達的體系可能更加合適。蛋白質水平的剔除術也許是說明基因功能最有力的手段。利用組合化學方法有望生產出化學剔除試劑,用於激活或失活各種蛋白質。
總之,模式生物體的基因組計劃為人類基因組的研究提供了大量的信息。今後,模式生物體的研究方向是將人類基因組8~10萬個編碼基因的大部分轉化為已知生化功能的多成分核心機制。而要獲得酶一種人類進化保守性核心機制的精細途徑,以及它們的紊亂導致疾病的各種途徑的知識,將只能來自對人類自身的研究。
通過功能基因組學的研究,人類最終將將能夠了解哪些進化機制已經確實發生,並考慮進化過程還能夠有哪些新的潛能。一種新的解答發育問題的方法可能是,將蛋白質功能域和調控順序進行重新的組合,建立新的基因網絡和形態發生通路。也就是說,未來的生物科學不僅能夠認識生物體是如何構成和進化的,而且更為誘人的是產生構建新的生物體的可能潛力。
人類基因組計劃大事記
1990年10月,國際人類基因組計劃啟動
1999年9月,中國獲准加入人類基因組計劃
1999年12月1日,人類首次成功地完成人體染色體基因完整序列的測定。2000年4月底,中國科學家完成1%人類基因組的工作框架圖。2000年5月8日,由德國和日本等國科學家組成的國際科研小組宣布,他們已基本完成了人體第21對染色體的測序工作。2000年6月26日,六國科學家公布人類基因組工作框架圖。2001年2月12日,人類基因組圖譜及初步分析結果首次公布。2001年8月26日,中國提前兩年完成1%人類基因組測序任務。2003年4月15日,六個國家共同宣布人類基因組序列圖完成。
意義
「人類基因組計劃」是由美國科學家、諾貝爾獎獲得者達爾貝科提出的,其目標是測定人類23對染色體的遺傳圖譜、物理圖譜和DNA序列,換句話說測出人體細胞中23對染色體上全部30億個鹼基(或稱核苷酸)的序列,把總數約10萬個的基因都明確定位在染色體上,破譯人類全部遺傳信息。1990年美國國會批准「人類基因組計劃」,聯邦政府撥款30億美元啟動了該計劃,隨後英國、日本、法國、德國和中國相繼加入。這個計劃的意義可以與征服宇宙相媲美,被稱為生命科學的「登月計劃」。
人體細胞中有23對共46條染色體,一個染色體由一條脫氧核糖核酸,即DNA分子組成,DNA又由四種核苷酸A、G、T和C排列而成。基因是DNA分子上具有遺傳效應的片段,或者說是遺傳信息的結構與功能的單位,基因組指的則是一個物種遺傳信息的總和。如果將人體細胞中30億個鹼基的序列全部弄清楚後,如果印成書,以每頁3000個印刷符號計,會有100萬頁。就是這樣一本「天書」,蘊藏着人的生、老、病、死的豐富信息,也是科學家們進一步探索生命奧秘的「地圖」,其價值難以估量。就其科學價值來說,從基因組水平去研究遺傳,更接近生命科學的本來面目,由此還可以帶動生物信息學等一批相關學科的形成和發展,可能帶來的經濟效益也是驚人的。
科學家們測出人類基因組全序列之後,對人體這個複雜的系統會有更好的認識,針對基因缺陷的基因療法也會更有前景。而據美國《時代》周刊預測,到2010年,利用基因療法已經可以治療血友病、心臟病及一些癌症等。在醫學上,人類基因與人類疾病有相關性,與疾病直接相關的基因有5000-6000條,目前已有1500個相關基因被分離和確認。一旦弄清某基因與某疾病有關,人們就可以用基因直接製藥,或通過篩選後製藥,其科學價值和經濟效益十分明顯。
人類基因組計劃尚未結束,後基因組計劃已經被提上了議事日程。在科學家們看來,完成人類基因組DNA全序列測定只是破譯人類遺傳密碼的基礎,更重要和更大量的工作是功能基因組的研究。此外,基因的作用是編碼蛋白質,真正執行生命活動的是蛋白質,與基因組學相比,蛋白質組學更接近生命的本來面目,一些科學家已經開始了蛋白質組的研究。
基因組如何改變未來
人類基因組研究是一項基礎性的研究,有科學家把基因組圖譜看成是指路圖,類似於化學 中的元素周期表,也有科學家把基因組圖譜比作字典;但不論是從哪個角度去闡釋,人類對自 身在分子水平上的研究,其應用前景都是相當廣闊的,尤其是在促進人類健康、預防疾病、延 長壽命等方面。國家人類基因組南方中心主任陳竺院士認為,人類10萬個基因的信息以及相應 的染色體位置被闡明後,將成為醫學和生物製藥產業知識和技術創新的源泉。從目前研究來看, 一些困擾人類健康的主要疾病,例如心腦血管疾病、糖尿病、肝病、癌症等都與基因有關,依據已知的基因序列和功能,找出這些基因並針對相應的靶位進行藥物篩選,甚至基於已有的基 因知識來設計新藥。基因藥物將成為21世紀醫藥中的一支新銳。也正因此,各大生物醫藥公司 對於基因的爭奪才日趨白熱化。
基因研究不僅能夠為篩選和設計新藥提供基礎數據,也為利用基因進行檢測和治療提供了 可能。由於現在了解的主要疾病大多不是單基因疾病,而具有不同基因序列的人對不同的疾病 會有不同的敏感性,比如,有同樣生活習慣和生活環境的人,對同一種病的易感性會非常的不 一樣,都是吸煙人群,有人就易患肺癌,有人卻不易。醫生會根據各人不同的基因序列給予指 導,因人而異地養成科學合理的生活習慣,最大可能地預防疾病。
科學家們認為,人類有一個共同的基因組。任意挑出兩個人,他們的基因序列99.9% 以上 是相同的。不同種族、不同個體間基因序列的差異不到0.1%,但正是極少數基因上的序列差別, 形成了地球上千差萬別的芸芸眾生。
也許30-40年以後,如果你去看病,醫生會問你是否帶上了自己的基因圖譜檔案,你也會質 疑醫生是否具有解讀某種級別的個人基因圖譜的資格。中國科學院遺傳研究所人類基因組中心於軍教授認為,隨着技術的不斷進步,或許在一二十年後,基因組測序所需的時間和成本就能降 低到個人可以接受的程度。屆時,醫生可根據這些信息對某些疾病作出正確的基因診斷和預測 某些疾病發生的可能性,進而對患者實施基因治療和生活指導等。
隨着基因和基因組研究的進展,許多疾病在發作之前就能在分子水平上得到治療,對人類 「衰老基因」和「長壽基因」的詳細了解也將激發人類為增加自己壽命而努力。
目前,一些國家的人口平均壽命已突破80歲,中國也突破了70歲。柯林斯預測說,到2050 年,人類的平均壽命將達到90-95歲。中國工程院院士、中國醫學科學院院長巴德年教授則說,再過20年人類有望攻克癌症,心腦血管疾病可望得到有效防治,在2020-2030年間,可能出現人 口平均壽命突破100歲的國家。
今天的基因組計劃將如何改變我們的未來?人類基因組研究的知名專家、美國塞萊拉公司 首席科學家范特教授說的一句話是最好的答案:「破譯基因組密碼的意義就如同在剛發現電的 那個時代,沒有人能想像出個人電腦、互聯網一樣。」未來是難以預料的,但它已經越來越多 地掌握在了人類自己的手中。[2]
重要成果
HGP自1990年10月正式啟動至今已有7年多時間,這7 年所取得的成就使得人們不再像80年代後期那樣對HGP 的可行性持懷疑態度,正如美國 HGP負責人 Francis Collins 所說的,我們已從人類基因組計劃中學到最重要的一課是,這個計劃是完全可以的。而且在HGP執行至今,人們發現在資金未能到達原定資助強度的條件下,已提前完成了原定的進度。HGP主要包括四項任務:⑴遺傳圖譜的建立;⑵ 物理圖譜的建立;⑶DNA順序測定;⑷基因的識別。具體來說這幾年來有着如下四個方面的進展:
遺傳圖譜 遺傳圖譜是通過計算機連鎖的遺傳標誌之間的重組頻率來確定它們之間的相對距離。至1994年底,在法國和美國科學家共同努力之下,完成了應用RFLP 標誌和可用PCR方法進行批量分析的微衛星DNA為標誌,包含5826個位點,覆蓋400cM, 分辨率高達0.7cM的遺傳圖譜的製作。1996年3月法國科學家又報道了完全為微衛星標誌構建的遺傳連鎖圖,其中包括2335個位點,分辨率為1.6cM。這些工作提前完成了原定於1998年完成的分辨率為2~5cM的計劃,不僅為進一步的物理圖譜構建提供了重要的依據,還可應用這張遺傳圖譜,通過基因組掃描技術,對那些具有複雜性狀的多基因病(如高血壓、糖尿病、冠心病等)進行連鎖分析,以完成這些疾病所涉及的易感基因的定位。
物理圖譜 物理圖譜用於確定各遺傳標誌之間的物理距離,其製作主要是通過大片段 DNA操作技術,對標誌進行定序和距離測定,為基因的分離、識別和基因組DNA 順序測定奠定基礎。物理圖譜的構建這幾年也有了長足的進步:建立了以15086 個順序標籤位點為標誌,分辨率達199kb的物理圖譜和構建了由225個YAC連續克隆重疊群組成的、覆蓋範圍達整個人類基因組75%的物理圖譜。此外, 應用放射雜交製圖技術來製作物理圖譜也在緊鑼密鼓地進行中。
DNA順序測定 人類基因組全部DNA順序的測定是HGP的核心部分,在過去的幾年中這方面也有了異常迅猛的發展。目前隨着遺傳和物理圖譜工作的已經和即將完成,測序就成為今後10年工作的重中之重。在基因組計劃上馬之際,完成的最長的DNA順序是250kb的巨細胞病毒順序,花費了數年時間。而今,一個大測序中心可在一個月內完成一個細菌基因組(大於1Mb)的測序工作。到目前為止世界上已有L·Hood、B·Booe 和Sanger中心等三個研究小組完。對完成人類基因組全部核苷酸順序測定起着決定性作用,目前的方法有待進一步改進乃至革命。預期全部人類基因組測序工作將於2005年之前完成。
基因的識別 HGP的重要內容之一,是識別全部人類基因即基因組中發生轉錄表達功能單位,並對其結構進行研究。目前常採用的策略有二:⑴從基因組DNA順序中識別那些轉錄表達順序即基因;⑵隨機從cDNA文庫中挑取克隆並進行部分測序。這些隨機測出的部分cDNA順序稱為表達順序標籤(EST)。根據轉錄順序的位置和距離繪製的圖譜即轉錄圖。過去幾年裡許多重要疾病( 如脆性X綜合症、 Huntigton 舞蹈病、Wilson氏病、多囊腎病)的致病基因被通過定位克隆技術克隆,而隨着轉錄圖中所定位的基因的密度和精度的提高,定位克隆技術將逐步被定位候選克隆法所取代。