基因是可遗传的DNA片段,每个DNA序列有许多个基因。单个基因是DNA序列中的一块固定区域、一块片段。
物种的DNA像是一条固定的流水生产线,它的产品就是这个物种的个体。其中每一道生产工序,被称为一个基因座。在该工序干活的工人,因为他们具备类似的技能,被称为 等位基因,它们之间是竞争上岗的,在某个体的DNA上某基因座处只能有一个等位基因存在。但是就该物种而言,其所有基因座上的所有等位基因的所有可能的组合,我们称之为该物种的 基因库。该物种的某个体身上具体存在的基因组合,也就是它的染色体,被称为 基因型。表现型 则是某个体的实际外表特征,比如体型、样貌、肤色等等。
基因型对个体的成长有极大的影响,但是它并非唯一的决定因素。即使基因型完全相同的个体也会表现出不同的外貌。比如人类的同卵双胞胎拥有完全相同的基因型,他们的外貌非常相似,但还是略有不同,父母总能够区分开。另外,他们的指纹也不一样。
基因型塑性是指基因型对其表现型的影响大小。其数值低则说明环境因素对该物种的影响比较大,反之亦然。如此说来,人类的型塑性应该是偏高的。
下面我们看一看基因如何传递遗传信息。
沃森 和 克里克 等人提出的 中心法则 明确地揭示了生命活动的基本过程,之后霍华德·马丁·特明用逆转录酶过程进一步完善了这一法则。至此,遗传信息的传递过程清晰地展示在我们眼前。
人们原先以为单个基因简单地对应着单个蛋白质合成,但是1961年弗朗索瓦·雅各布和雅克·莫诺在研究大肠杆菌乳糖代谢过程中发现了有些基因不会合成蛋白质,只起调控作用。
因此,人们把能翻译为蛋白质的这部分基因称为 结构基因,这就是我在上一节说的数据。在软件编程中,每一份数据都有其对应的业务数据类型,比如姓名、地址、手机号码、备注说明等等,我们可以认为能最终翻译为蛋白质的那些基因,就代表着这些具有不同含义的数据类型。
有些DNA片段其本身并不进行转录,但对其邻近的数据之转录起控制作用。还有些DNA片段被转录了但是不被翻译为蛋白质。这两部分DNA片段都被称为 调控基因,是DNA中的控制编码。因为它们的存在,我们认为DNA中数据-也就是蛋白质编码-以不连续的方式出现在DNA序列中的各处,它们之间由控制编码分割开来。
科学家在研究小鸡卵清蛋白基因时,发现其转录形成的RNA字符长度只有其DNA长度的1/4,这就是因为那些非数据的控制编码在转录过程中被切除了。
以上图中心法则的视角来看,在DNA编码被转录为RNA时,会进行第一次裁剪,该裁剪是由DNA本身上的调控基因来控制的。以人类为例,大约70%的DNA编码会被转录为RNA。之后,也并非这部分转录为RNA的编码都会被翻译为蛋白质肽链,此时会进行第二次裁剪。第二次裁剪,是由已经转录到RNA上来的基因中的一部分 - 被称为RNA基因 - 来完成的。以人类为例,在前面的70%编码中,又有一大部分来调控RNA的翻译过程,最终大约只有3%的编码会被翻译为蛋白质肽链。
控制编码-也就是调控基因-是真核生物出现之后才有的,之前的原核生物的基因都简单地对应着蛋白质,都是纯粹的数据。
此外,玉米夫人麦克林托克 甚至发现,某些基因可以从DNA复制到RNA之后,再粘贴回DNA上。甚至可以在DNA自身上,先在某处剪切然后粘贴在另一处。这与文本处理相比,几乎没有差别。
正是这种复制-粘贴的机制,在DNA中形成了大量重复编码,也就是说同一种基因出现在DNA序列的多处,这种机制甚至成为高等生物的DNA编码的主流。我认为这就像软件编程中的代码复用一样,同一种数据被多处代码复用,基因的复用方式是直接将要复用的基因拷贝粘贴到要使用它的控制编码旁边去。
在原核生物和低等真核生物中,基因组大小与生物形态的复杂性正相关。但是在更高等的真核生物中,这种相关性就不存在了。正是因为大量复用了已有的数据类型,人类的基因组长度远远比不上变形虫。
由于这种灵活的调控与组装机制,基因具备了更大的应变能力。原核生物的基因最为简明。越是后来的新进物种,其基因中的控制编码比例越多,充斥着重复的、被注释掉的、四处粘贴的段落。
所以,基因远远不是我们通常所认为的那样,是一部神圣严肃的经书,而是一段情节不断发展中的连载小说。