4

国产AI蛋白质结构预测再现突破,用单条序列解决3D结构,彭健团队:"AlphaFold2以...

 2 years ago
source link: https://www.qbitai.com/2022/07/36281.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

国产AI蛋白质结构预测再现突破,用单条序列解决3D结构,彭健团队:“AlphaFold2以来最后一块拼图补齐了”

head.jpg万博 2022-07-22 14:53:53 来源:量子位

AlphaFold2没做到的它做到了

万博 发自 凹非寺

量子位 | 公众号 QbitAI

计算生物领域,出现一则最新进展:

AI预测蛋白质3D结构,仅通过单条蛋白序列就能搞定。

也就是说,AI预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过AI预测3D结构,确定其对人体的功能。

达成这一成就的AI算法名为OmegaFold,在最近的全球持续蛋白质预测竞赛中,整体预测能力已经与DeepMind此前开发的AlphaFold2,和华盛顿大学开发的RoseTTAFold不相上下,甚至有些指标优于后两者。

研究成果来自国内AI创新药物公司华深智药,一家成立不到一年的中国初创企业,孵化自张亚勤旗下的清华大学智能产业研究院

bfcf37878d0d4614a3483b18d483edf3~tplv-tt-shrink:640:0.image

AI预测蛋白质结构不再需要同源信息

据华深智药披露,其最新开发的OmegaFold算法,实现了用单一蛋白质序列预测蛋白质3D结构的能力。

而且在测试准确度上,和AlphaFold2和RoseTTAFold不相上下。

同时在测试速度,快于AlphaFold2和RoseTTAFold。

具体测试过程,是这样的:

研究团队分别对CASP和CAMEO的蛋白质数据集进行了测试,其中CASP数据集有29个蛋白质,CAMEO数据集有146个单链蛋白质。

(PS:这里的CASP和CAMEO,是蛋白质结构预测领域最重要的两项比赛)

作为对比,在测试中,研究团队在上OmegaFold仅输入单一蛋白质序列,对 AlphaFold2和RoseTTAFold,则是在默认模式下输入多重序列(MSA)

03130e4b9c8a43d79d495872da477c46~tplv-tt-shrink:640:0.image

最终,CAMEO数据集测试,OmegaFold预测的蛋白质3D结构,平均局部距离差异测试(LDDT:全球结构预测领域主要评价指标)得分为0.82。

而AlphaFold2与RoseTTAFold的得分,分别是0.75和0.86。

CASP数据集的测试结果,OmegaFold的平均TM分值*(评估蛋白质结构拓扑学相似性的常用指标)为0.79,与AlphaFold2不相上下,不过略低于RoseTTAFold 0.81的分数。

研究团队表示,从结果来看,采用单序列进行预测的OmegaFold,已经整体达到或超越了采用多序列预测的AlphaFold2和RoseTTAFold。

e17ce7063d594a5f8e4af6921601b6c7~tplv-tt-shrink:640:0.image

而且,研究团队还发现,因为只采用单一序列预测蛋白质的3D结构,因此在AI算法的训练和预测速度上,也有很大提升,蛋白质结构预测时间,可以被压缩到数秒内。

a0e42bbea6c14c46a65319607f61e0d2~tplv-tt-shrink:640:0.image

Helixon团队还同时发现,仅通过氨基酸序列来预测三维结构,不仅减少了同源序列所带来的噪音,还能够提高训练和预测的计算速度,使得蛋白质结构可以在数秒内被预测完毕。

基于此,研究团队用OmegaFold,对两类缺乏蛋白质同源进化信息的蛋白质,抗体蛋白质和孤儿蛋白质进行结构预测。

结果发现,OmegaFold在这两类蛋白质,尤其是抗体的关键功能区结构预测,有突破性的进展。

而这类缺乏蛋白质同源进化信息的蛋白质,恰好是AlphaFold2和RoseTTAFold无法到达的盲区。

对此,华深智药创始人彭健认为,这项研究成果意味着:

蛋白质3D结构预测,并不需要同源序列的存在,也不需要知道任何进化信息。

96fb623f12aa45b38e2c4635f8052432~tplv-tt-shrink:640:0.image

而华深智药表示:

OmegaFold的出现补全了蛋白质三维结构预测的最后一块拼图

另外,华深智药还披露了OmegaFold背后的技术细节。

具体来看,OmegaFold能够用单一序列取代多重同源序列,是因为研究团队采用了一种,基于几何信息的深度学习模型——OmegaPLM

该学习模型可以根据蛋白质的序列信息,预测原子坐标,同时经过训练学习,预测原子在三维空间的距离。

在不断的迭代之后,可以让这些预测出来的原子坐标和距离,满足基本的几何定律,最终形成蛋白质结构。

0bac3301fdb24e15bda481b323c79f13~tplv-tt-shrink:640:0.image

OmegaFold的能力,和背后的技术原理整明白了,最后还剩下一个问题:

华深智药是谁?

公开信息显示,华深智药是一家AI创新药物研发商,成立于2021年6月,总部位于北京,最早是由张亚勤旗下的清华大学智能产业研究院孵化而来。

早在去年12月份,华深智药开发的HeliXonAI算法,就在全球持续蛋白质结构预测竞赛CAMEO上,实现对AlphaFold2的反超,以84.0的lDDT预测精确度得分,刷新了CAMEO竞赛得分记录。

da7d454aa59641188030e0f04a42e73a~tplv-tt-shrink:640:0.image

一家成立半年左右的初创企业,出道即巅峰。

而巅峰背后的关键先生,就是华深智药创始人彭健

彭健,伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系及医学院终身教授,计算生物领域的知名大牛,机器学习与蛋白质结构和功能预测的顶级科学家。

36fefc996a7643849f1c4ccfe75d4faa~tplv-tt-shrink:640:0.image

他在博士期间设计的著名算法 RaptorX,以及在UIUC任教期间设计的DeepContact算法,多次在CASP比赛中获得领先的成绩,并很早就尝试将深度学习的技术引入这个领域。

彭健也因此在2016年获得有“诺奖风向标”之称的斯隆研究奖,并于2020年获得计算生物领域最高奖奥弗顿奖(Overton Prize),成为该奖项20年来首位华人得主。

去年6月,彭健看到AI在生物制药领域的应用前景,于是就在清华大学智能产业研究院孵化之下,正式创办华深智药。很快便完成了千万美元级天使轮融资。

同时在今年6月,成立一周年之际,华深智药又完成由五源资本领投,高榕资本、Neumann Capital以及三家天使轮投资方襄禾资本、高瓴创投、清智资本跟投的A轮融资,融资金额近5亿元人民币。

参考链接:

[1]https://helixon.s3.amazonaws.com/omegafold.pdf
[2]https://twitter.com/peng_illinois/status/1538536909814874113

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK