【文/观察者网专栏作者 潘禺】,2016年3月,在观看了AlphaGo在围棋这一古老游戏中击败了人类世界冠军李世石后,DeepMind联合创始人德米斯·哈萨比斯回想起了自己本科时期的经历。,他当时玩过一个名为Foldit的游戏,玩家可以在游戏中将氨基酸链折叠成蛋白质结构,哪怕玩家对生物学一无所知,并不影响他们折叠蛋白质。如果DeepMind能用AI来模仿围棋大师的直觉,难道不能编写一个算法,用AI来模仿Foldit玩家的直觉吗?,

,
模拟蛋白质折叠的游戏Foldit的界面
,
蛋白质折叠问题,蛋白质折叠是一个迷人的问题。,一张纸,在没有折叠前,不过是压扁的木浆。当你折叠这张纸,就能产生各种功能。比如折成飞机,那么纸飞机就能被投掷并滑行,供孩子们娱乐。而如果折成灯笼,就能在中秋节赏玩,表达团圆的美好寓意。,地球上已知的蛋白质,是拥有数亿种不同形状的分子,每一种都执行特定的生物学功能。血红蛋白和肌红蛋白在肌肉和身体中运输氧气,角蛋白赋予头发、指甲和皮肤结构,胰岛素使葡萄糖进入细胞转化为能量。这些功能,通常由蛋白质的形状或结构定义。一串氨基酸分子,在没有自发折叠成其固有形状之前,就没有功能。,一个细胞将称为氨基酸的小分子串联成多肽链,这就是制造蛋白质的过程。细胞如何选择氨基酸,取决于DNA提供的底层指令集。多肽链一旦组装好,在极短的时间,千分之一秒内,会弯曲、再弯曲,精确地折叠成蛋白质的最终三维形状,随后离开分子装配线,立即去执行它的生物学工作。,

,图为核糖体使用信使RNA模板制造蛋白质
,如果蛋白质执行这种折叠过程出了差错,错误折叠或解缠,就可能导致毒性和细胞死亡。许多疾病,如镰状细胞性贫血,就是由错误折叠的蛋白质引起的。错误折叠的蛋白质聚集成团,是阿尔茨海默病和帕金森病等神经退行性疾病的标志。,已知的蛋白质结构可以分为四个层次。,一级结构可以理解为一条线性的字符串。基本组成单元是一个个的氨基酸,即一个个的字母。常见的氨基酸只有20种,所以一级结构的字符串通常只包含20种字母,不包含的6种字母是BJOUXZ。二级结构就是在一级结构的字符串的基础上,肽链进行折叠变换,形成一种局部的三维结构。三级结构就是把多个二级结构拼接到一起,折叠成一个完整的蛋白质三维结构。四级结构就是多个三级结构分子组合成一个复合物。,

,四个不同层次的蛋白质结构
,20世纪50年代,生物化学家克里斯蒂安·安芬森的发现使他获得了诺贝尔奖。他将蛋白质添加到化学溶液中,溶液的破坏导致蛋白质错误折叠,但他接下来观察到,去除化学剂后,蛋白质还是可以自发地重新折叠,恢复其天然的结构。安芬森假设,蛋白质折叠成其原始结构是由蛋白质的氨基酸序列自动完成的,氨基酸序列里就包含了所需的全部信息。这就是安芬森教条。,安芬森教条意味着,应该有一种方法可以从氨基酸序列预测蛋白质的形状,这就是蛋白质折叠问题。,分子生物学中的许多假设被称为教条(dogma),最著名的是中心法则(The central dogma of molecular biology),遗传信息的标准流程是DNA制造RNA,RNA制造蛋白质,中心法则指出,遗传信息传到蛋白质后,不会回流到核酸之中。蛋白质折叠领域还有一个教条,叫莱文塔尔(Levinthal)悖论,说的是一个给定的蛋白质可供选择的可能构象的数量是天文数字,即使是一个小蛋白质,也需要比宇宙存在的时间还要多的时间来探索所有可能的构象,可谓“一沙一世界,一花一天堂”。,安芬森教条的例外,则是人类已知的许多疾病。比如朊病毒的构象,就与应有的原生折叠状态不同。淀粉样蛋白疾病,如牛海绵状脑病(疯牛病)、阿尔茨海默病和帕金森病,都是安芬森教条的例外,原生蛋白错误折叠成不同的构象,从而导致致命的淀粉样蛋白堆积。,回到蛋白质折叠问题,蛋白质组装的时间这么短,到底是什么东西,将蛋白质引向正确的折叠路径呢?能否从氨基酸序列预测蛋白质的结构?折叠的代码和机制是什么?