外源基因在强启动子的控制下表达,容易发生转录过头现象,即RNA聚合酶滑过终止子结构继续转录质粒上的邻近DNA序列,形成长短不一的mRNA混合物,这种情况的发生在T7表达系统中尤为明显。过长转录物的产生不仅影响mRNA的翻译效率,同时也使外源基因的转录速度大幅度降低:首先,转录产物越长,RNA聚合酶转录一分子mRNA所需的时间就相应增加,外源基因本身的转录效率下降;其次,如果外源基因下游紧邻载体质粒上的其他重要基因或DNA功能区域,如选择性标记基因和复制子结构等,则RNA聚合酶在此处的转录可能干扰质粒的复制及其他生物功能,甚至导致重组质粒的不稳定性;再次,转录过长的mRNA往往会产生大量无用的蛋白质,增加工程菌无谓的能量消耗;最后也是最为严重的是,过长的转录物往往不能形成理想的二级结构,从而大大降低外源基因编码产物的翻译效率。
因此,重组表达质粒的构建除了要安装强的启动子以外,还必须注意强终止子的合理设置。虽然转录终止子在表达质粒的构建过程中常被忽略,但有效的转录终止子是表达载体必不可少的元件,贯穿启动子的转录将抑制启动子的功能,造成启动子封堵。所谓启动子封堵作用,指由一个上游启动子驱动的转录作用,当其通读过下游启动子时,便会使该启动子的功能受到抑制,将这种由一个启动子的功能活性抑制另一个启动子转录的现象。这种效应可以通过在编码序列下游的适当位置放置转录终止子,阻止转录贯穿别的启动子来避免。同样地,在启动目的基因的启动子上游放置转录终止子,将最大限度地减小背景转录。
8.1.3核糖体结合位点
基因表达过程中,除了转录,翻译也是非常重要的一步,翻译效率取决于mRNA5′端与30S 核糖体小亚基的结合能力,这段区域又被称为核糖体结合位点(ribosome binding site)。
该区域由如下组成:
1.SD序列
位于翻译起始密码子上游的一段富含嘌呤的区域,均有一序列5′AGGAG3′,即Shine‐Dalgarno序列,简称SD序列,它通过识别大肠杆菌核糖体小亚基中的16S rRNA3′端区域(3′UCCUC5′),并与之专一性结合,将RNA定位于核糖体上,从而启动翻译,结构不同的mRNA分子具有不同的翻译效率,它们之间的差别有时可高达数百倍,这主要由于SD序列的差异引起,不同基因的SD顺序不完全相同,长度变化在3~9bp。SD序列中单个碱基变化会明显影响单位时间内起始复合物的形成速率及数目。真核基因的mRNA与核糖体的结合通过其他机制完成,其5′端无此特征序列,因此真核基因在大肠杆菌中表达时,需在基因的5′端安置一段SD序列。
2.翻译起始密码子
大肠杆菌中的起始tRNA分子可以同时识别AUG、GUG和UUG三种起始密码子,但其识别频率并不相同,通常GUG为AUG的50%,而UUG只及AUG的25%。除此之外,从AUG开始的前几个密码子碱基序列也至关重要,至少这一序列不能与mRNA的5′端非编码区形成茎环结构,否则便会严重干扰mRNA在核糖体上的准确定位。以AUG作为阅读框的起始位点的基因,当第二个密码子为AAG或GCU时,翻译效率较高。
3.SD序列与翻译起始密码子之间的距离
SD序列与起始密码子之间的精确距离保证了mRNA在核糖体上定位后,翻译起始密码子AUG正好处于核糖体复合物结构中的P位,这是翻译启动的前提条件。在很多情况下,SD序列位于AUG之前大约7个碱基处,在此间隔中少一个碱基或多一个碱基,均会导致翻译起始效率不同程度的降低。间距对翻译的影响与SD序列本身的长短也有一定的关系,如当SD序列较长,如为UAAGGAGG 时,间距范围为4~12个碱基对翻译的效率几乎没有影响,但当SD序列较短时,如为AAGGA 时,则产生较大的变化。
4.基因编码区5′端若干密码子的碱基序列
SD序列后面的碱基若为AAAA 或UUUU,翻译效率最高;而CCCC 或GGGG 的翻译效率分别是最高值的50%和25%。紧邻AUG的前三个碱基成分对翻译起始也有影响,对于大肠杆菌β半乳糖苷酶的mRNA而言,在这个位置上最佳的碱基组合是UAU 或CUU,如果用UUC、UCA或AGG取代之,则酶的表达水平低20倍。
核糖体结合位点对翻译的影响有这样一个规律:①在间隔相同的情况下,UAAGGAGG的SD序列比AAGGA 的SD序列能使蛋白质的产量提高3~6倍;②对于同一SD序列,存在一最佳的间隔,AAGGA 的间隔为5~7个核苷酸,而UAAGGAGG 的间隔为4~8个核苷酸;③对于同一SD序列,有一翻译所必需的最小间隔,AAGGA的最小间隔为5个核苷酸,而UAAGGAGG 的最小间隔为3~4个核苷酸。这些间隔提示,在16S rRNA的3′末端和结合于核糖体P位点的fMet‐tRNAf的反义密码子之间存在精确的物理关系。目前广泛用于外源基因表达的大肠杆菌表达型质粒上,均含有与启动子来源相同的核糖体结合位点序列,例如所有含有Plac启动子以及由其构建的杂合启动子的质粒,均使用lacZ基因的RBS。
另外,翻译起始区(TIR)的二级结构也是影响外源基因在大肠杆菌中表达的一个原因。
TIR指一切与翻译起始相关的顺式原件,包括RBS及其他参与二级结构形成并影响翻译的序列。降低TIR的二级结构的稳定性可以提高翻译起始的效率,提高mRNA的稳定性,从而利于外源基因的表达;重组蛋白可能会被大肠杆菌中的蛋白酶降解,一些公司已经开发出蛋白酶缺陷型菌株,减少目的表达产物被降解的可能。
8.1.4密码子偏好
除了上述几个条件外,真核生物基因在大肠杆菌中的表达还与密码子偏好有关。由于密码子的简并性,在组成蛋白质的20种氨基酸中,只有甲硫氨酸和色氨酸对应唯一的密码子(分别为AUG 和UGG),其他18种氨基酸均拥有2~6种不同的密码子。编码同一种氨基酸的一组密码子称为同义密码子(synonymous codon)。原核和真核生物的基因对同义密码子的使用均表现非随机性,不同的生物,甚至同种生物不同的蛋白编码基因,对于同一氨基酸所对应的简并密码子,使用频率并不相同,也就是说,生物体基因对简并密码子的选择具有一定的偏爱性。对E.coli中密码子的使用频率进行系统分析得到以下结论:①对于绝大多数简并密码子中的一个或两个具有偏好;②某些密码子对所有不同的基因都是最常用的,无论蛋白质的含量多少,例如CCG是脯氨酸最常用的密码子;③高度表达的基因比低表达的基因表现更大程度的密码子偏好;④同义密码子的使用频率与相应的tRNA含量有高度相关性。这些结果暗示,富含E.coli不常用密码子的外源基因有可能在E.coli中得不到有效表达。已经证明,微精氨酸tRNAArg(AGG/AGA)是多种哺乳动物基因在细菌中表达的限制因子,因为AGA和AGG在E.coli中不常用。
由于原核生物和真核生物基因组中密码子的使用频率具有不同程度的差异性,因此外源基因,尤其是哺乳动物基因在大肠杆菌中高效翻译的一个重要因素是密码子的正确选择。一般而言,有两种策略可以使外源基因上的密码子在大肠杆菌细胞中获得最佳表达,首先,采用外源基因全合成的方法,按照大肠杆菌密码子的偏爱性规律,设计更换外源基因中不适宜的相应简并密码子,重组人胰岛素、干扰素以及生长激素在大肠杆菌中的高效表达均采用了这种方法;其次,对于那些含有不和谐密码子种类单一、出现频率较高、而本身相对分子质量又较大的外源基因而言,则选择相关tRNA编码基因同步克隆表达的策略较为有利。例如在人尿激酶原cDNA的412个密码子中,共含有22个精氨酸密码子,其中AGG七个,AGA两个,而大肠杆菌受体细胞中tRNAAGG和tRNAAGA的丰度较低。为了提高人尿激酶原cDNA在大肠杆菌中的高效表达,可将大肠杆菌的这两个tRNA编码基因克隆在另一个高表达的质粒上。由此构建的大肠杆菌双质粒系统有效地解除了受体细胞由于tRNAAGG和tRNAAGA分子匮乏而对外源基因高效表达所造成的制约作用。
8.2常用的大肠杆菌表达载体
根据所表达的蛋白是否分泌到细胞外,表达载体可分为非分泌型表达载体(胞内表达载体)和分泌型表达载体;而根据表达所用的受体细胞,表达载体又可分为原核细胞表达载体和真核细胞表达载体。
表达载体是外源基因表达的关键,在大肠杆菌中表达外源基因的表达载体须符合以下几个条件:①在宿主细胞中能自我复制;②含有大肠杆菌适宜的选择标记,具多克隆位点,方便目的基因以正确的方向插入;③具有可控制的启动子,一个可诱导的强启动子可使外源基因有效地转录;④在启动子下游区和ATG 起始密码子上游区有核糖体结合位点序列(SD序列),促进蛋白质翻译;⑤在外源基因插入序列的下游区要有一个强转录终止序列,保证外源基因的有效转录和mRNA的稳定性。大肠杆菌中常用的启动子有Lac、Trp、Tac 以及来自λ噬菌体的强启动子PL、PR 和来自T7噬菌体的T7启动子等。前几类启动子可被大肠杆菌的RNA聚合酶所识别而起始转录,而T7启动子必须由T7噬菌体来源的T7噬菌体RNA聚合酶所识别而起始转录。因此,在表达载体中用T7启动子时,必须用能产生T7噬菌体RNA聚合酶的受体菌做宿主,如JM109(DE3)菌株。
迄今为止,基因工程学家已经在改建质粒载体方面作出了巨大的努力,他们设计并构建了一系列的以原核启动子取代真核启动子的质粒表达载体系统。目前广泛使用的大多数质粒表达载体,主要是大肠杆菌乳糖操纵子的lac 启动子、色氨酸操纵子的trp启动子、λ噬菌体的pL启动子及新近发展起来的T7表达系统,下面将逐一介绍这些常用的表达载体。
8.2.1Lac 启动子的表达载体
包括4部分:①结构基因:能通过转录、翻译使细胞产生一定的酶系统和结构蛋白,这是与生物性状的发育和表型直接相关的基因。乳糖操纵子包含3个结构基因:lacZ、lacY、lacA。lacZ 合成β半乳糖苷酶,lacY 合成透过酶,lacA合成乙酰基转移酶。②操纵基因O :与调节基因的表达产物(阻遏蛋白)结合,控制结构基因的转录开启与闭合,位于结构基因的附近,本身不能转录成mRNA。③启动子区P :位于操纵区上游,部分与O 区重叠。④调节基因I :可调节操纵基因的活动,调节基因能转录出mRNA,并合成一种蛋白,称阻遏蛋白。操纵基因、启动基因和结构基因共同组成一个单位——操纵子(operon)。其调控机制如下:
在不存在诱导剂时,阻遏物对乳糖操纵子结构基因表达的阻遏作用;B.诱导剂与阻遏物共存时,结构基因顺利表达抑制作用:调节基因转录出mRNA,合成阻遏蛋白,阻遏蛋白能够识别操纵基因并结合到操纵基因上,妨碍了RNA聚合酶的启动效果,因此RNA聚合酶就不能与启动基因有效结合,结构基因也被抑制,结果是结构基因不能转录出mRNA,不能翻译蛋白。
诱导作用:存在乳糖的情况下,乳糖代谢产生别乳糖(allolactose),别乳糖能与调节基因产生的阻遏蛋白结合,使阻遏蛋白改变构象,不能再与操纵基因结合,失去阻遏作用,结果RNA聚合酶便与启动基因结合,并使结构基因活化,转录出mRNA,翻译出蛋白。若培养基中出现乳糖或加入非代谢的诱导物,例如异丙基βD 半乳糖苷(IPTG),都可对阻遏物产生诱导失活作用。
乳糖操纵子具有负反馈调节作用,当细胞质中有了β半乳糖苷酶后,便催化分解乳糖为半乳糖和葡萄糖。乳糖被分解后,又造成了阻遏蛋白与操纵基因结合,使结构基因关闭。
乳糖操纵子还具有正调节作用:在启动子的上游有CAP 的结合位点(CAP bindingsite),在培养基中缺乏葡萄糖的条件下,ATP 在腺苷酸环化酶的作用下转变成cAMP,cAMP便同其受体蛋白CAP(cyclic AMP receptor protein)结合成一种活跃的CAP‐cAMP 复合物,因此,对于lac 操纵子来说,CAP 蛋白是正性调节因素,lac 阻遏蛋白是负性调节因素。两种调节机制根据存在的碳源性质(葡萄糖/乳糖)及水平协同调节lac 操纵子的表达。当lac 阻遏蛋白封闭转录过程时,CAP 蛋白对该系统不能发挥作用;但是如果没有CAP 蛋白存在来加强转录活性,即使阻遏蛋白从操纵序列上解聚仍几乎没有转录活性。可见,两种机制相辅相成、互相协调、相互制约。