- 国家市场监督管理总局
- 国家药品监督管理局
- 中国健康传媒集团主办
- 中央新闻网站
在过去的数十年中,科学家们已经能够利用冷冻电子显微镜、核磁共振或X射线晶体学等技术在实验室中确定蛋白质的形状,但这些方法都需要通过大量的试错才能获得最终的结果,这可能需要花上好几年时间以及大量的资金。幸运的是,得益于基因测序成本的快速降低,基因组学领域的数据变得丰富起来。一些科学家开始利用AI技术开发深度学习算法,在基因组学数据的基础上对蛋白质结构进行预测。在此基础上,AlphaFold诞生了。
2018年12月,DeepMind宣布推出全新的AlphaFold系统,能够预测并生成蛋白质的3D结构。在当年的国际蛋白质结构预测竞赛(CASP)上,初次登场的AlphaFold就成为最大的黑马,以绝对的优势击败了上百位参会选手,拔得头筹。在比赛中,AlphaFold成功预测了给定的43种蛋白质中的25种的最准确结构,而同一类别的第二名参赛队伍只预测出了43种中的3种。
和以往依赖预先构想逻辑的传统人工智能方法不同的是,AlphaFold并未使用已经明确结构的蛋白质3D模型作为模板,而是通过将机器学习作为蛋白质结构预测网络的核心组成部分,让AlphaFold从数据中自行发现模式规律。
经过多轮调试和集思广益,DeepMind的研究团队在原来的算法基础上成功构建出了AlphaFold2。在2020年的CASP上,DeepMind的AlphaFold2系统表现惊艳,在接受检验的近100个蛋白靶点中,AlphaFold2对三分之二的蛋白靶点给出的预测结构与实验手段获得的结构相差无几。有些情况下,已经无法区分两者之间的区别是由于AlphaFold2的预测出现错误,还是实验手段产生的假象。
2021年,Hassabis博士和Jumper博士与欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)合作,发布了AlphaFold预测的蛋白结构数据库(AlphaFold Protein Structure Database)。这个数据库涵盖了人类和20种常用模式生物的35万个蛋白质结构,并且对98.5%的人类蛋白质结构进行了准确预测——在此之前,科学界解析的蛋白质结构只覆盖了人类蛋白序列17%的氨基酸。欧洲生物信息研究所主任Ewan Birney博士称该数据库为人类基因组图谱发布以来最重要的数据库之一。人工智能预测蛋白质结构领域的一系列突破,也被《科学》杂志评选为2021年年度科学突破。
更令人激动的是,他们开发的这一数据库将免费提供给全球的科研人员开放使用。许多科学家和生物医药公司的研究员兴奋地表示,这一系列突破将加速新药开发,并为基础科学研究带来全新革命。
2022年,DeepMind与EMBL-EBI团队的合作又迎来一项巨大的飞跃。AlphaFold对蛋白质结构的预测不再局限于人类与模式生物,而是拓展至涵盖动植物、细菌等的100万个物种。不仅如此,其预测的蛋白质结构数量也提升了数百倍。AlphaFold2已对超过2亿种蛋白质进行了结构预测——几乎是科学界已知的所有蛋白质。同样,这2亿种蛋白质的结构预测数据依然向公众免费开放。研究人员能够像使用谷歌搜索信息一样搜索蛋白质的结构,可以即时获得他们正在研究的任何蛋白质的预测模型,这大大减少了他们曾经需要花在确定蛋白质结构上的时间。
目前,这些数据已经在疟疾疫苗开发、解决抗生素耐药性问题与塑料污染等场景中得到应用,并能够帮助研发人员加速新药研发。除此以外,该模型还具有加速生物学各个领域研究的潜力,其应用前景正等着更多才华横溢的科学家们尽情开发。
©2019中国食品药品网京公网安备 11010802023089号 京ICP备17013160号-1
《中国医药报》社有限公司 中国食品药品网版权所有