基因结构查看源代码讨论查看历史
基因结构,是指基因的编码序列,编码的序列称为外显子(exon),是一个基因表达为多肽链的部分;非编码序列称为内含子(intron),又称插入序列(intervening sequence,IVS)。
目录
简介
外显子和内含子大多数真核生物的基因为不连续基因(interrupted或discontinuous gene)。所谓不连续基因就是基因的编码序列在DNA分子上是不连续的,被非编码序列隔开。编码的序列称为外显子(exon),是一个基因表达为多肽链的部分;非编码序列称为内含子(intron),又称插入序列(intervening sequence,IVS)。内含子只参与转录形成pre-mRNA,在pre-mRNA形成成熟mRNA时被剪切掉。如果一个基因有n个内含子,一般总是把基因的外显子分隔成n+1部分。内含子的核苷酸数量可比外显子多许多倍。外显子每个外显子和内含子接头区都有一段高度保守的一致顺序(consensus seqence),即内含子5’末端大多数是GT开始,3’末端大多是AG结束,称为GT-AG法则,是普遍存在于真核基因中RNA剪接的识别信号。侧翼顺序侧翼顺序在第一个外显子和最末一个外显子的外侧是一段不被翻译的非编码区,称为侧翼顺序(flanking sequence)。侧翼顺序含有基因调控顺序,对该基因的活性有重要影响。
基因结构基础资料
基因结构转录过程
1.启动子 启动子(promoter)包括下列几种不同顺序,能促进转录过程:(1)TATA框(TATA box):其一致顺序为TATAATAAT。它约在基因转录起始点上游约-30-50bp处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一,RNA聚合酶与TATA框牢固结合之后才能开始转录。](2)CAAT框(CAAT box):其一致顺序为GGGTCAATCT,是真核生物基因常有的调节区,位于转录起始点上游约-80-100bp处,可能也是RNA聚合酶的一个结合处,控制着转录起始的频率。(3)GC框(GC box):有两个拷贝,位于CAAT框的两侧,由GGCGGG组成,是一个转录调节区,有激活转录的功能。此外,RNA聚合酶Ⅲ负责转录tRNA的DNA和5SrDNA,其启动子位于转录的DNA顺序中,称为下游启动子。2.增强子在真核基因转录起始点的上游或下游,一般都有增强子(enhancer),它不能启动一个基因的转录,但有增强转录的作用。此外,增强子顺序可与特异性细胞因子结合而促进转录的进行。研究表明,增强子通常有组织特异性,这是因为不同细胞核有不同的特异因子与增强子结合,从而对基因表达有组织、器官、时间不同的调节作用。例如人类单拷贝胰岛素基因5’末端上游约250 bp处有一组织特异性增强子,在胰岛β细胞中有一特异因子可作用于该区以增强胰岛素基因的转录和翻译,其它组织中无此因子,这是何以胰岛素基因只有在胰岛β细胞中才得以很好表达的原因.3.多聚腺苷酸化附加信号 是位于真核基因3‘端的一段保守序列,由AATAAA6个碱基组成。目前研究表明,它是mRNA3’端的polyA附加信号,不是终止信号。研究还发现,在进行多聚腺苷酸化之前,应该3‘端水解掉10—15bp。所以,这段顺序又称为RNA裂解信号,其作用是:一、知道核酸内切酶在此信号下游10—15bp特定位点处裂解mRNA;二、在聚合酶的作用下,在成熟mRNA3‘端加上200—250个A的poly A尾部。
基因结构结构示意图
En:增强子:P1、P2、P3:启动子(TATA框,CAAT框,GC框);E:外显子:I:内含子;UT:非翻译区;GT-AG:外显子-内含子接头6.终止子在一个基因的末端往往有一段特定顺序,它具有转录终止的功能,这段终止信号的顺序称为终止子(termianator)。终止子的共同顺序特征是在转录终止点之前有一段回文顺序,约7-20核苷酸对。回文顺序的两个重复部分分由几个不重复碱基对的不重复节段隔开,回文顺序的对称轴一般距转录终止点16-24bp。在回文顺序的下游有6-8个A-T对,因此,这段终止子转录后形成的RNA具有发夹结构,并具有与A互补的一串U,因为A-U之间氢健结合较弱,因而DNA杂交部分易于拆开,这样对转录物从DNA模板上释放出来是有利的,也可使RNA聚合酶从DNA上解离下来,实现转录的终止。
基因的基本结构
不论真核与原核生物都离不开基因,它储存着生长、发育、凋亡等几乎全部生命过程的信息。那么基因有着哪些结构呢,接下来从三个层面来讨论基因的构成:
一、DNA
编码区 Coding region
基因在结构上,分为编码区和非编码区两部分。真核生物的编码区是不连续的,分为外显子和内含子,在转录过程中会修剪内含子,并拼合外显子来形成转录产物。在原核生物中,基因是连续的,也就是说无外显子和内含子之分。
外显子 Exon
外显子是在 preRNA 经过剪切或修饰后,被保留的DNA部分,并最终出现在成熟RNA的基因序列中。
内含子 Intron
在真核生物中,内含子作为阻断基因的线性表达的一段DNA序列,是在 preRNA 经过剪切或修饰后,被切除的DNA序列
非编码区 Non-coding region
非编码区在对基因的表达调控中发挥重要作用,如启动子,增强子,终止子等都位于该区域,有意思的是在人类基因中非编码区的占比超过90%。它们中的一部分可以转录为功能性RNA,比如tRNA(transfer RNA), rRNA(ribosomal RNA)等;可以作为DNA复制,转录起始来对复制,转录和翻译起到调控作用;也可能是着丝粒与端粒的重要组成部分。
启动子 Promoter
启动子是特定基因转录的DNA区域,启动子一般位于基因的转录起始位点,5‘端上游,启动子长约100-1000bp。在转录过程中,RNA聚合酶与转录因子可以识别并特异性结合到启动子特有的DNA序列(一般为保守序列),从而启动转录。启动子本身并不转录而且也不控制基因活动,而是通过转录因子结合来调控转录过程。在细胞核中,似乎启动子优先分布在染色体区域的边缘,可能是在不同染色体上共同表达基因。 此外,在人类中,启动子显示出每个染色体特有的某些结构特征。
CAAT Box 与 Sextama box
CCAAT box(有时也缩写为CAAT box或CAT box):具有GGCCAATCT 共有序列的不同核苷酸序列 ,是真核生物基因常有的调节区,位于转录起始点上游约-80bp处,可能也是RNA聚合酶的一个结合处,控制着转录起始的频率。与之相似的是,在原核生物启动子上-35bp处的TTGACA区,又称-35区。
保守序列与共有序列的概念含义基本相同。保守序列间相似度高,但不一定相同,而共有序列是相同的,共有序列可以理解为一种特殊的保守序列。 CAAT框是最早被人们描述的常见启动子元件之一,常位于接近-80的位置,但是它可以在离起始点较远的距离仍能起作用,且在两种取向均可发挥作用。CAAT框的突变敏感性提示了它在决定转录效率上有很强的作用,但是突变对启动子的特异性没有影响。
TATA Box 与 Pribnow box
TATA 框(TATA box / Goldberg-Hogness box),存在于古细菌和真核生物的核心启动子区域的一段DNA序列,TATA 框的原核同源物称为Pribnow 框(Pribnow box),其具有较短的共有序列TATAATAAT。 它约在多数真核生物基因转录起始点上游约-30bp(-25~-32bp)处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一,RNA聚合酶与TATA框牢固结合之后才能起始转录。
增强子 Enhancer
增强子是位于转录起始位点或下游基因1Mbp的位置,长度50-1500bp的序列,其可以被转录激活因子结合从而增加特定基因转录发生的可能性,广泛的存在于原核与真核生物基因结构中。 增强子能大大增强启动子的活性。增强子有别于启动子处有两点:增强子对于启动子的位置不固定,而能有很大的变动;它能在两个方向产生相互作用。一个增强子并不限于促进某一特殊启动子的转录,它能刺激在它附近的任一启动子。
终止子 Terminator
终止子处于基因或操纵子的末端,给RNA聚合酶提供转录终止信号的DNA序列。
终止子与终止密码子的概念区分:二者在名称上相似,但是含义是截然不同的。终止子是处于基因的非编码区的一段DNA序列,用于终止转录。而终止密码子是在翻译过程中终止肽链合成的mRNA中的三联体碱基序列,一般情况下为UAA,UAG和UGA,不编码为氨基酸。
ATAAA
ATAAA 是 preRNA 在通过修剪后形成成熟mRNA 时在3'UTR产生ployA 是的加尾信号。但是这段序列并不是绝对保守,也可能为其他A富集的序列,比如AATAAA等。
回文序列 palindrome sequence
回文序列是双链DNA中的一段倒置重复序列,这段序列有个特点,它的碱基序列与其互补链之间正读和反读都相同。当该序列的双链被打开后,如果这段序列较短,有可能是限制性内切酶的识别序列,如果比较长,有可能形成发卡结构,这种结构的形成有助于DNA与特异性DNA与蛋白质的结合。
5' GGTACC 3'
3' CCATGG 5'
二、preRNA
转录起始位点 Transcription start sites (TSS)
转录起始位点是指与新生RNA链第一个核苷酸相对应的DNA链上的碱基,通常为一个嘌呤(A 或G),即5’UTR的上游第一个碱基。
5’末端的序列称为上游,而把其后面即3‘末端的序列称为下游.
转录终止位点 Transcription termination sites (TTS)
转录起始位点是指新生RNA链最后一个核苷酸相对应的DNA链上的碱基。当RNA链延伸到转录终止位点时,RNA聚合酶不再形成新的磷酸二酯键,RNA-DNA杂合物分离,转录泡瓦解,DNA恢复成双链状态,而RNA聚合酶和RNA链都被从模板上释放出来。
开放阅读框 Open reading frame(ORF)
ORF 是连续的一段密码子,其含有起始密码子(通常是AUG)和终止密码子(通常是UAA,UAG或UGA)。在真核基因中,ORF跨越内含子/外显子区域,其可以在 ORF 转录后拼接在一起以产生蛋白质翻译的最终mRNA。 由于读写位置不同(对应不同的起始位点),ORF 可能翻译为不同的多肽链。