首页 » 解码生命 » 解码生命全文在线阅读

《解码生命》第17章 蓝色星球和新生命

关灯直达底部

有机生命在无尽的波涛之下产生,

在海洋的珍珠洞里孕育成长;

先为幽芥之形,虽球面镜下不可观,

泥上移动或水中穿梭;

他们,世代繁盛,

获得了新的能力,呈现了大的肢体……

——伊拉兹马斯·达尔文,《自然的殿堂》

从我最初研究跳动的心脏细胞起,我就被我的兴趣而不是我的同行所推动。在我离开塞雷拉的黑暗日子里,我再一次被自己的经历所鼓舞。我的一生都钟情于石油——我喜欢汽车、摩托车、机动船、帆船和飞机——结果我耗损了大量这种古生物产品,增加了我向大气排放的二氧化碳量。但是多年以后我从一个不计后果的超级燃料消费者变成了一个积极寻求替代品的关心环境的人。我要从哪儿开始新的冒险呢?哪里会有比海洋更好的地方呢?是海洋维持了我们的行星和我们的心智。如果我们想要准确评定气候变化的影响,我想我们应该搞清楚海洋里到底有什么,例如海洋酸化。我有一个计划可以做这些研究,而且作为一个额外的收益,这个计划还可以提供一个新的工具帮助我们与全球变暖作斗争。

因为我们是陆生动物,我们生活在岸上,甚至我们对气候变化影响的观点也是被我们人类中心化的生命观所支配。但是从太空看来我们的地球是蓝色的。生命开始的第一个舞台可能就是在这里,40亿~50亿年前的咸水里,在那里,当无生命分子和其他化学分子与从生命的生物化学划分出去的线交叉之时,一些我们今天定义为活着的东西出现了。关键的物质是可以自我复制的细胞,即包在脂质膜里的蛋白质和遗传物质的复杂混合体。现在海洋生物有令人称奇的多样性,从大鲸鱼到小细菌,大多数我们还不很了解,尤其是大小处于显微镜可视范围末端的微生物我们就知之更少了。解决气候变化问题的方案可以源自对生物多样性的理解以及理解它是怎样利用太阳辐射吸收二氧化碳的。我想我可以进一步利用这些知识:设法去模拟几十亿年前海洋中发生的事件,从而得到一个新的生命种类,一个极有可能的美好前景。

当我从加勒比海回来的时候,我就马上开始工作了。我建立了一个新的非营利性的研究所,基因组学促进中心(TCAG),并申请到了免税待遇。有了克雷格·文特尔科学基金(JCVSF)的支持以及来自出售人类基因组科学、棣文萨酵素公司和塞雷拉的创立者的股票资金,我现在可以启动它了。我从塞雷拉雇用了希瑟、林恩和克里斯,我们开始在我的马里兰波托马克河的地下室里工作,一直到我能租到一个新的工作场所。我有几个科学想法想要尽快地实行。

我最关心的事情就是把我的环境计划建立并运作起来。无可置疑的科学证据表明每年我们向大气排入的35亿吨的二氧化碳正在改变着全球的气候模式,简而言之这种改变是现代生命所不能承受的。但是我想做的不仅仅是少使用些石油或汽油或者安装一个太阳能板。我认为基因组学可以提供一些独特的东西。海洋生物的霰弹枪测序法可以简要反映现在海洋的健康状况和为日后的监测提供帮助,同时也可以帮助揭示创造我们绝大部分大气的微生物的性质。海洋微生物的代谢机制也可能会给我们提供一个新的方法制作替代燃料,比如氢、甲烷或者乙醇。

我成立了生物替代能源研究所(IBEA),聘用海姆·史密斯作为它的科学顾问。开展环境基因组学研究需要大量的DNA测序装置,我对此是有先见之明的。我不得不劝说我的基金委员会去冒一个4千万美元的风险,建立一个与我们在塞雷拉时相当的新装置。我们建立了一个新的名叫JCVSF联合技术中心(JTC)的非营利性组织,该组织也同时为TIGR测序。就在希瑟和她的团队搬进马里兰州洛克维尔一座临时建筑物时,一座新的11000平方米的研究建筑在我几年前用捐助经费购买的土地上开工了。所雇用的员工很大比例是富有进取精神的,由于塞雷拉的大幅裁员,我们的企业发展迅速。很多我以前的朋友和同事过来加入我的新的研究组织。

就在环境保护第一次成为我的研究重点的时候,我在基因组科研前线还有一些未完成的事情要做。我想利用我的新式基因组学实验室进一步发展我们已有的成就,把我们对它的理解转化为药物,我也想继续进行人类基因组测序的研究并充分考虑它的伦理含义。同样重要的,也是出于自尊,我也想与来自政府支持的基因组科学家的攻击和批评彻底做一个了结。在基因组竞争结束后,大家都继续自己的生活,但是事情并没有完,随着争夺单独测序人类基因组的荣誉的斗争的继续,敌意变得更激烈了。

也许最为臭名昭著的例子发生在2002年4月,当时《分子生物学杂志》[1]发表了题为《人类基因组计划:一个竞赛者的观点》的文章。这篇文章是由华盛顿大学的梅纳德·奥尔森撰写的,它曾被他的同事称为“基因组计划的良心”[2]。在薄薄的面纱下他打算把荣誉从我这里拿走给他的同事,他又回到我们的方法是否是真正的新方法这个老生常谈的问题上来了:“文特尔声称,他‘发明’的全基因测序法是基于他领导测序了一个小细菌基因组,该基因组几乎没有重复。”接下来他又断言我是个骗子:“与文特尔在1998年6月所做的宣誓证词不符,塞雷拉把它的数据全部秘而不宣。”奥尔森的确给了我一个荣誉,因为“塞雷拉一开始毫无疑问地加速了第一次人类基因组测序,使其提前了两年完成。”

在此之前我就写了一份对兰德、萨斯顿和沃特斯顿的《分子生物学杂志》文章的辩驳[3],文章认为他们应该得到单独享有测序人类基因组的荣誉,因为我的全基因组霰弹枪法测序已经失败了[4]。这反过来引得兰德等人在一篇非科学的评论文章里使用一些花招提出了同样的要求[5]。曾在TIGR和塞雷拉做过基因组拼接的格兰杰·萨顿对兰德特别生气,因为他认为就算萨斯顿和沃特斯顿没有理解塞雷拉的成就(毕竟他们两个是生物学家,在数学和计算机方面不是专家),兰德一定应该理解了。不仅因为他有很深的数学背景,而且因为他自己的人正在我们工作的基础上,发展一个名叫阿拉喀涅的他们版本的全基因组霰弹枪拼接器。

格兰杰认为那时我们已和好很久了。在《分子生物学杂志》文章发表较早之前的2001年6月,在克林顿总统的激励下,来自塞雷拉和国际人类基因组协会的计算生物学家们以中立方的身份(位于马里兰的切维蔡斯霍华·休斯医学会)讨论测序和装配序列。就像《纽约时报》报道的一样:“没有双方领导出席的计算生物学家间的聚会气氛是热烈的。”[6]格兰杰向与会者说明了为什么在完全不吸收公共数据的情况下,就可以重新召集塞雷拉人类基因组并得到更好的结果是可能的。遭受到接踵而来的攻击后,格兰杰的狂怒是可以理解的:那篇在《分子生物学杂志》论文的结果一年之前就已经被在切维蔡斯会议提出的数据驳倒了,“我们已经提出了一些相当令人信服的材料说明全基因组霰弹枪测序法是多么好了”。

事实上,到目前为止,在公共计划那一方还是有一些重要人物是相信我们的。其中之一是加州大学圣克鲁兹的吉姆·肯特(Jim Kent),这个留着胡子的粗壮的人物被认为是一个明星选手,他曾只用了四周时间就独自把在一百台奔腾Ⅲ电脑上运转的渔叉拼接软件的程序组合在了一起,正好赶上白宫发布会。他做这一切时还是个研究生[7]。我对他的这些成就印象深刻。

肯特并不同意那篇在《分子生物学杂志》文章的结论,因为对他来说,公众和塞雷拉数据[8]之间的差异是很明显的——甚至在我们测序老鼠基因组之前——“兰德等人在《分子生物学杂志》文章中设想的公共数据的重组可能是不完全正确的。”他下结论说,“老实说,我的确认为塞雷拉的拼接工作大体上比我们的好(你应该希望这样,因为除了他们自己所做的,他们还可以看到我们的数据)。”他补充说,兰德自己的阿拉喀涅拼接器也是与塞雷拉所用的非常相仿,“它从另一角度暗示了塞雷拉方法虽然带有某种限制,基本上运作得还不错。”

回忆起当我们结束人类基因组接着测序老鼠时,我们没有理会基因银行中有限的公共计划数据,而仅仅使用了我们自己的霰弹枪数据,所以我们又一次躲过了那些对我们真正的成就所提出的连珠炮似的诡辩和歪曲。利用一个加强的拼接器我们最终得到了比我们曾从人类基因组那里获得的更好的结果。阿里·帕特诺斯是当时的G5之一,重新看过兰德等人的《分子生物学杂志》文章后,他总结说文章“坦白地说糟透了,他们的方法是有效的,他们对老鼠所做的工作是最好的证明。”甚至我的老对手迈克·摩根也承认“你在否决某些人时一定要非常确定,因为通常它会起反作用。所有的那些文章不管怎样都会适得其反。”

虽然我发表了第二篇辩驳的文章[9],但是我一直都很清楚,数据是赢得科学争论的唯一方法。我与迈克·亨克皮勒在ABI进行了接触;他也同样被这些不断的非难搞得心烦意乱,也想确保真实历史记录。鉴于我曾在阿普莱拉的遭遇和与托尼·怀特关于数据发表的争吵,我在向ABI购买3千万美元新DNA测序仪时附加了一个具有法律效力的合同,据此我们可以出版塞雷拉的数据和在公共领域不受约束地使用这些数据。(在2005年,塞雷拉将停止出售基因组信息而使它全部进入公有领域。)另外,我的研究所将会复制完整的基因组数据用以学术研究。一旦这个协定签署后,我们就与塞雷拉剩下的科学家合作,我们将会把塞雷拉的整个基因组拼接与包括公共计划的“终结”版本在内的其他版本的基因组进行比较。

索林·伊斯特里以前是吉恩·梅尔斯领导的一个团队的高级成员,现在是塞雷拉生物信息学的领头人,他担任新的合作计划的领导。数据分析大约会花费一年多的时间,而且要发展很多新的计算工具来进行第一次整个人类基因组的比较。我和《分子生物学杂志》的编辑同享这一计划,他很高兴我们将使所有的数据都可供使用,而且他说在我们的文章完成后他愿意发表它,也乐意帮助我们结束那些口舌之争。

那些数据是强有力的,它证明了全基因组霰弹枪法测序是精确的。当这项工作最后在2004年初发表时,它使我们可以精确地比较公开和非公开的基因组:塞雷拉的结果提供了更多各基因组的顺序和位置,但是公共计划的序列提供了更好的重复片段覆盖。政府和威尔康信托基金实验室还在继续完善他们的基因组序列,这件事将花费他们超过4年的时间和大约1亿美元(或许更多,具体的数目还不知道)。对比证实了公共数据每一次质量的改进都是对塞雷拉唯一拼接的逼近,不管是从品质还是精确度而言(各基因组顺序和位置)。塞雷拉的拼接事实上弥补了“终结”基因组中很多剩余的缺口,而该基因组序列是在2004年由公共计划在《自然》上大吹大擂地宣布的[10]。我们没有召开记者招待会就发表了我们的文章。这些数据本身就够有力的了[11]。

随着公开论战的最终结束,我打算开启一个人类基因组研究的新局面。在发表了人类基因组装配分析文章之后,TCAG(在与三个非营利性的研究所合并以后,它现在更名为文特尔研究所)已经开始着手排序和分析单个个体的基因组了。这个个体就是我。之所以选择我是出于科学研究的考虑,而不是自负或傲慢。早期包括塞雷拉基因组的合成版本,过分低估了人类变种的数目。而政府所支持项目的基因组是由来自有限个体的片段(复制体)拼接起来的,所以看不到遗传变化。塞雷拉的基因组来自于五个个体基因组的共有序列,包括我在内。我们使用赢者通吃的原理:我们的基因组使用在五个人中出现次数最多的部分。这也同样失去了由indels(插入/缺失多态性)导致的变种,indels是遗传密码中超过一个字母被改变的地方。当在一个个体DNA中插入/缺失一个较大的片段时,拼接程序并不记录这一变化,除非它发生在序列的多数部分。

换句话说我们双方在2000年6月大张旗鼓地公之于众的基因组并没有说明我们一开始想要解读它们的一个关键原因:一个由不同人混合或拼接的DNA抹去了个体差异,而这些个体差异会让我们一些人易患癌症、心脏病或其他的疾病(尽管已经有研究工作绘制过单个字母的变化图——单核苷酸多态性)。早期的基因组仅仅关注一个人的遗传密码的一个复制体,而事实上我们继承了分别来自父母的两个。在一些位置上,父母中的一方的基因起主要作用,而在另外一些地方是另一方基因起主要作用。我们需要检查所有60亿而不是30亿个字母的编码,才能得到最准确的人类基因组序列的真正的面目。

因为很明显的原因是,我们从来没有宣布说我和海姆是最初测序的两个捐献DNA的人,同时我们也没有刻意隐瞒。当调查TV新闻杂志《60分钟》报道了基因组竞赛时,它揭露说我是DNA捐献者之一;但是直到后来当《纽约时报》的尼克·韦德(Nick Wade)来采访我的新研究所时,我的基因组才真正变成了新闻。我对当时的谈话没有多想,直到接下来的周六早上当《纽约时报》送到我家时我才注意到它的头版报道《科学家披露基因组的秘密:它是他的》[12]。这个标题是不正确的,但是我猜想这有助于证明这样一个事实,那就是只有《纽约时报》说它是新闻时它才成为新闻。

失明发现

媒体曾兴致勃勃地报道过关于我的基因组的一些令人沮丧的发现。一个头版报道说:“应《华尔街日报》的要求,文特尔博士的同事检查了他的一些与健康风险相联系的特定基因。在一个电话会议中文特尔得知,他的基因表示他失明的可能性很大。当你研究你的DNA时,你的生命可能会以如此方式呈现。”[13]

这份报纸提出,在我的基因中有一个名叫补足因子H(CFN)的基因有一个单字母的变化(一个名叫rs1061170的SNP),一些研究把它和“非常高”的患黄斑变性可能性相联系,黄斑变性是一个导致视网膜中心变性的常见病,它会毁坏中心视觉的功能。

在我的两个CFH基因复制体中,有一个有这样的变异,这使我患此疾病的可能性增加了3~4倍。如果两个复制体都发生变异的话,可能性就会上升到10倍以上。

早期的研究认为CFH可能在防止血管发炎和损坏方面起关键作用,所以它的变异会导致发炎从而致盲。因子H的一个已知的性质是它管理补足系统的活化,补足系统是一个相关蛋白质的集合,它是身体的第一线的防御体系——一个先天的体系——它攻击外来的入侵者同时避免对于任何健康细胞“自身”的攻击。

可以说我的基因组在塞雷拉基因组中占了主要部分。就像在第十四章中提到的,基因组拼接小组希望能较多覆盖五个人中某个人的基因组,以确保我们能得到一个精确的拼接。虽然海姆的DNA已经在高质量的5万碱基对文库中了,但是因为早期的来自于我的基因组的测序文库在2000碱基对和1万碱基对范围最有效,这些文库被选为3倍测序范围。总的来说,我的DNA在最后的塞雷拉基因组中占据了60%。

癌症和我的基因组

很多人生来就有一个变异从而使他们更容易发生肿瘤。一般来说,一些单核苷酸多态性(SNP)——单字母拼写错误——可以明显地改变一个基因的行为,同时其他的可能有更微妙的功能效果,使个体更易于患与其遗传背景和环境一致的疾病(例如,有一些基因会增加吸烟者患肺癌的概率,但是对不吸烟的人没有影响。)还有一些则根本不起任何作用(不具功能性的SNP)。

基因编码蛋白质,在这三个SNP类型中,最有趣的是那些改变蛋白质结构,从而通过改变氨基酸蛋白质的一个基本单位来发挥作用的类型。它们被叫作“错义SNP”。目前为止,好消息是,通过检查寻找我的基因组中与癌症有关的四个基因——Her2、Tp53、PIK3CA和RBL2——的变异后,我们发现了两个错义SNP,它们与癌症没有已知的联系,以及两个未知效用的异常SNP。其中一个SNP发生在我们称之为保守位的PIK3CA上,它是蛋白质很少发生变化的部分,大概是因为它太重要了。

没有数据能说明这个特别的变化是否会使我陷于更大的危险。但是PIK3CA属于一个重要的基因族,该基因族编码名为脂质激酶的蛋白质,该酶修改脂肪分子并指导细胞生长、变形和移动。我们知道有30%的直肠癌、胃癌和恶性胶质瘤的发生与PIK3CA变异有关,在较小程度上,它也与乳腺癌和肺癌有关。PIK3CA变异还会导致脑瘤的自发产生。我可能会更进一步研究它。

获得一个人的基因组序列这件事也引发了一场争论,就像基因组学中很多其他问题一样。塞雷拉科学顾问团的成员们对于识别任何捐献者的身份感到不安。阿瑟·卡普兰(Art Caplan)把这个计划比作无名战士的坟墓,它是神圣不可知的。但是整个现代军事DNA法医学事实上将永远不会有“未知”的未来。就像许多早期的医学争论一样,从心脏移植到试管婴儿,大家的态度随着时间的流逝发生了翻天覆地的变化。对此最好的说明是,现在吉姆·沃森也让一家新开的商业风险投资公司——454生命科学公司——测序他的基因组序列了,基于马西斯·乌伦(Mathis Uhlen)开创性研究焦磷酸测序的工作,这家公司创造了一个测序仪,马西斯的研究工作是在斯德哥尔摩完成的。

自从我牵扯进这项计划的事情被曝光以来,我每次都被问及我们到底在我的基因组序列里获知了些什么。(事实上直到2006年,我的密码中所有60亿个碱基对的读取才告完成。)2007年,我们把第一个现代人的倍数染色体基因组序列发表在一个免费开放的杂志《公共科学图书馆生物学》上[14]。这个不可思议的知识真的困扰你了吗?你害怕把它贴在网上让全世界的人看吗?在这本书里,我总在主张和解释我们的基因组很少能给出确定的答案,它们所能告诉我们的大概最好的表达就是某种事情发生的可能性有多大。只有当我们得到我们所有基因含义的那个大的图景时——这将会花费数10年的时间——我们才可能指出它们是否可以告诉我们,我们有35%的概率患乳腺癌或结肠癌或其他什么。

对我的基因组来说,我最大的失望是在2005年,当时我被诊断有两种皮肤癌——黑素瘤和基底细胞癌。幸运的是两者发现得都较早。然而我并没有认真地组织去分析什么导致这两个肿瘤的基因突变,这本将是件令人神往的事情:看到我的基因组是怎样对这些基因失去控制的,我的DNA是怎样让我这样倒霉以至于我的细胞开始不顾我整个身体的健康而自顾自地繁殖。

但我还是可以大体上知道我本应该看到些什么。癌症被认为是由一个基因缺陷的堆积引起的,一个流行的观点认为这个基因缺陷在干细胞上有最大的影响,干细胞为特定的组织和器官提供细胞类型。对结肠癌来说,第一步是在一个名叫ras的成长基因上有一个缺陷,该成长基因使细胞繁殖形成一个息肉,即癌变前的增长。一般来说,息肉细胞中其他的增长控制基因也会遭到破坏,随着肿块的增大,更多的变异以一个极大的概率形成,因为快速繁殖的细胞更容易携带变异甚至“增变”基因,这推进了DNA的错误率。这就是我以前的一名同事——来自约翰·霍普金斯的伯特·佛哥斯坦(Bert Vogelstein)提出的多击模型。他可以说是当今世界上最重要的癌症研究员。在文特尔研究所,我们有一个由鲍勃·施特劳斯伯格指导的正在进行的与几个著名研究团队的较大合作项目,其中就包括佛哥斯坦的团队。在该合作项目中,我们正在研究癌细胞中基因的体细胞变化。体细胞变化是由诸如毒素和辐射等环境因素导致的非生殖细胞中基因的变异引起的。这些可能在一个个体身上导致癌症,但是它是非遗传的癌症形式,不可能由父母传递给下一代。