基因結構檢視原始碼討論檢視歷史
基因結構,是指基因的編碼序列,編碼的序列稱為外顯子(exon),是一個基因表達為多肽鏈的部分;非編碼序列稱為內含子(intron),又稱插入序列(intervening sequence,IVS)。
目錄
簡介
外顯子和內含子大多數真核生物的基因為不連續基因(interrupted或discontinuous gene)。所謂不連續基因就是基因的編碼序列在DNA分子上是不連續的,被非編碼序列隔開。編碼的序列稱為外顯子(exon),是一個基因表達為多肽鏈的部分;非編碼序列稱為內含子(intron),又稱插入序列(intervening sequence,IVS)。內含子只參與轉錄形成pre-mRNA,在pre-mRNA形成成熟mRNA時被剪切掉。如果一個基因有n個內含子,一般總是把基因的外顯子分隔成n+1部分。內含子的核苷酸數量可比外顯子多許多倍。外顯子每個外顯子和內含子接頭區都有一段高度保守的一致順序(consensus seqence),即內含子5』末端大多數是GT開始,3』末端大多是AG結束,稱為GT-AG法則,是普遍存在於真核基因中RNA剪接的識別信號。側翼順序側翼順序在第一個外顯子和最末一個外顯子的外側是一段不被翻譯的非編碼區,稱為側翼順序(flanking sequence)。側翼順序含有基因調控順序,對該基因的活性有重要影響。
基因結構基礎資料
基因結構轉錄過程
1.啟動子 啟動子(promoter)包括下列幾種不同順序,能促進轉錄過程:(1)TATA框(TATA box):其一致順序為TATAATAAT。它約在基因轉錄起始點上游約-30-50bp處,基本上由A-T鹼基對組成,是決定基因轉錄始的選擇,為RNA聚合酶的結合處之一,RNA聚合酶與TATA框牢固結合之後才能開始轉錄。](2)CAAT框(CAAT box):其一致順序為GGGTCAATCT,是真核生物基因常有的調節區,位於轉錄起始點上游約-80-100bp處,可能也是RNA聚合酶的一個結合處,控制着轉錄起始的頻率。(3)GC框(GC box):有兩個拷貝,位於CAAT框的兩側,由GGCGGG組成,是一個轉錄調節區,有激活轉錄的功能。此外,RNA聚合酶Ⅲ負責轉錄tRNA的DNA和5SrDNA,其啟動子位於轉錄的DNA順序中,稱為下游啟動子。2.增強子在真核基因轉錄起始點的上游或下游,一般都有增強子(enhancer),它不能啟動一個基因的轉錄,但有增強轉錄的作用。此外,增強子順序可與特異性細胞因子結合而促進轉錄的進行。研究表明,增強子通常有組織特異性,這是因為不同細胞核有不同的特異因子與增強子結合,從而對基因表達有組織、器官、時間不同的調節作用。例如人類單拷貝胰島素基因5』末端上游約250 bp處有一組織特異性增強子,在胰島β細胞中有一特異因子可作用於該區以增強胰島素基因的轉錄和翻譯,其它組織中無此因子,這是何以胰島素基因只有在胰島β細胞中才得以很好表達的原因.3.多聚腺苷酸化附加信號 是位於真核基因3『端的一段保守序列,由AATAAA6個鹼基組成。目前研究表明,它是mRNA3』端的polyA附加信號,不是終止信號。研究還發現,在進行多聚腺苷酸化之前,應該3『端水解掉10—15bp。所以,這段順序又稱為RNA裂解信號,其作用是:一、知道核酸內切酶在此信號下游10—15bp特定位點處裂解mRNA;二、在聚合酶的作用下,在成熟mRNA3『端加上200—250個A的poly A尾部。
基因結構結構示意圖
En:增強子:P1、P2、P3:啟動子(TATA框,CAAT框,GC框);E:外顯子:I:內含子;UT:非翻譯區;GT-AG:外顯子-內含子接頭6.終止子在一個基因的末端往往有一段特定順序,它具有轉錄終止的功能,這段終止信號的順序稱為終止子(termianator)。終止子的共同順序特徵是在轉錄終止點之前有一段回文順序,約7-20核苷酸對。回文順序的兩個重複部分分由幾個不重複鹼基對的不重複節段隔開,回文順序的對稱軸一般距轉錄終止點16-24bp。在回文順序的下游有6-8個A-T對,因此,這段終止子轉錄後形成的RNA具有髮夾結構,並具有與A互補的一串U,因為A-U之間氫健結合較弱,因而DNA雜交部分易於拆開,這樣對轉錄物從DNA模板上釋放出來是有利的,也可使RNA聚合酶從DNA上解離下來,實現轉錄的終止。
基因的基本結構
不論真核與原核生物都離不開基因,它儲存着生長、發育、凋亡等幾乎全部生命過程的信息。那麼基因有着哪些結構呢,接下來從三個層面來討論基因的構成:
一、DNA
編碼區 Coding region
基因在結構上,分為編碼區和非編碼區兩部分。真核生物的編碼區是不連續的,分為外顯子和內含子,在轉錄過程中會修剪內含子,並拼合外顯子來形成轉錄產物。在原核生物中,基因是連續的,也就是說無外顯子和內含子之分。
外顯子 Exon
外顯子是在 preRNA 經過剪切或修飾後,被保留的DNA部分,並最終出現在成熟RNA的基因序列中。
內含子 Intron
在真核生物中,內含子作為阻斷基因的線性表達的一段DNA序列,是在 preRNA 經過剪切或修飾後,被切除的DNA序列
非編碼區 Non-coding region
非編碼區在對基因的表達調控中發揮重要作用,如啟動子,增強子,終止子等都位於該區域,有意思的是在人類基因中非編碼區的占比超過90%。它們中的一部分可以轉錄為功能性RNA,比如tRNA(transfer RNA), rRNA(ribosomal RNA)等;可以作為DNA複製,轉錄起始來對複製,轉錄和翻譯起到調控作用;也可能是着絲粒與端粒的重要組成部分。
啟動子 Promoter
啟動子是特定基因轉錄的DNA區域,啟動子一般位於基因的轉錄起始位點,5『端上游,啟動子長約100-1000bp。在轉錄過程中,RNA聚合酶與轉錄因子可以識別並特異性結合到啟動子特有的DNA序列(一般為保守序列),從而啟動轉錄。啟動子本身並不轉錄而且也不控制基因活動,而是通過轉錄因子結合來調控轉錄過程。在細胞核中,似乎啟動子優先分布在染色體區域的邊緣,可能是在不同染色體上共同表達基因。 此外,在人類中,啟動子顯示出每個染色體特有的某些結構特徵。
CAAT Box 與 Sextama box
CCAAT box(有時也縮寫為CAAT box或CAT box):具有GGCCAATCT 共有序列的不同核苷酸序列 ,是真核生物基因常有的調節區,位於轉錄起始點上游約-80bp處,可能也是RNA聚合酶的一個結合處,控制着轉錄起始的頻率。與之相似的是,在原核生物啟動子上-35bp處的TTGACA區,又稱-35區。
保守序列與共有序列的概念含義基本相同。保守序列間相似度高,但不一定相同,而共有序列是相同的,共有序列可以理解為一種特殊的保守序列。 CAAT框是最早被人們描述的常見啟動子元件之一,常位於接近-80的位置,但是它可以在離起始點較遠的距離仍能起作用,且在兩種取向均可發揮作用。CAAT框的突變敏感性提示了它在決定轉錄效率上有很強的作用,但是突變對啟動子的特異性沒有影響。
TATA Box 與 Pribnow box
TATA 框(TATA box / Goldberg-Hogness box),存在於古細菌和真核生物的核心啟動子區域的一段DNA序列,TATA 框的原核同源物稱為Pribnow 框(Pribnow box),其具有較短的共有序列TATAATAAT。 它約在多數真核生物基因轉錄起始點上游約-30bp(-25~-32bp)處,基本上由A-T鹼基對組成,是決定基因轉錄始的選擇,為RNA聚合酶的結合處之一,RNA聚合酶與TATA框牢固結合之後才能起始轉錄。
增強子 Enhancer
增強子是位於轉錄起始位點或下游基因1Mbp的位置,長度50-1500bp的序列,其可以被轉錄激活因子結合從而增加特定基因轉錄發生的可能性,廣泛的存在於原核與真核生物基因結構中。 增強子能大大增強啟動子的活性。增強子有別於啟動子處有兩點:增強子對於啟動子的位置不固定,而能有很大的變動;它能在兩個方向產生相互作用。一個增強子並不限於促進某一特殊啟動子的轉錄,它能刺激在它附近的任一啟動子。
終止子 Terminator
終止子處於基因或操縱子的末端,給RNA聚合酶提供轉錄終止信號的DNA序列。
終止子與終止密碼子的概念區分:二者在名稱上相似,但是含義是截然不同的。終止子是處於基因的非編碼區的一段DNA序列,用於終止轉錄。而終止密碼子是在翻譯過程中終止肽鏈合成的mRNA中的三聯體鹼基序列,一般情況下為UAA,UAG和UGA,不編碼為氨基酸。
ATAAA
ATAAA 是 preRNA 在通過修剪後形成成熟mRNA 時在3'UTR產生ployA 是的加尾信號。但是這段序列並不是絕對保守,也可能為其他A富集的序列,比如AATAAA等。
迴文序列 palindrome sequence
迴文序列是雙鏈DNA中的一段倒置重複序列,這段序列有個特點,它的鹼基序列與其互補鏈之間正讀和反讀都相同。當該序列的雙鏈被打開後,如果這段序列較短,有可能是限制性內切酶的識別序列,如果比較長,有可能形成發卡結構,這種結構的形成有助於DNA與特異性DNA與蛋白質的結合。
5' GGTACC 3'
3' CCATGG 5'
二、preRNA
轉錄起始位點 Transcription start sites (TSS)
轉錄起始位點是指與新生RNA鏈第一個核苷酸相對應的DNA鏈上的鹼基,通常為一個嘌呤(A 或G),即5』UTR的上游第一個鹼基。
5』末端的序列稱為上游,而把其後面即3『末端的序列稱為下游.
轉錄終止位點 Transcription termination sites (TTS)
轉錄起始位點是指新生RNA鏈最後一個核苷酸相對應的DNA鏈上的鹼基。當RNA鏈延伸到轉錄終止位點時,RNA聚合酶不再形成新的磷酸二酯鍵,RNA-DNA雜合物分離,轉錄泡瓦解,DNA恢復成雙鏈狀態,而RNA聚合酶和RNA鏈都被從模板上釋放出來。
開放閱讀框 Open reading frame(ORF)
ORF 是連續的一段密碼子,其含有起始密碼子(通常是AUG)和終止密碼子(通常是UAA,UAG或UGA)。在真核基因中,ORF跨越內含子/外顯子區域,其可以在 ORF 轉錄後拼接在一起以產生蛋白質翻譯的最終mRNA。 由於讀寫位置不同(對應不同的起始位點),ORF 可能翻譯為不同的多肽鏈。