8

Dr. X | 探秘 AI 药物研发底层技术——力场与分子模拟

 2 years ago
source link: https://www.chainnews.com/articles/119416870907.htm
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Dr. X | 探秘 AI 药物研发底层技术——力场与分子模拟

关于 Dr.X Dr. X 是由晶泰科技博士团发起的专业知识分享栏目,旨在向生物医药行业传递和分享全球 AI 药物研发的前沿技术与研发动态,促进广大药物研发从业者对 AI 药物研发的认知,推动 AI 等前沿技术在药物研发领域的应用。分子模拟技术在新型药物设计中…

· 1 小时前 ·阅读约 6 分钟

关于 Dr.X

Dr. X 是由晶泰科技博士团发起的专业知识分享栏目,旨在向生物医药行业传递和分享全球 AI 药物研发的前沿技术与研发动态,促进广大药物研发从业者对 AI 药物研发的认知,推动 AI 等前沿技术在药物研发领域的应用。

分子模拟技术在新型药物设计中得到了广泛的应用,在算法上主要包含三个部分,分别是对体系相互作用(势能面)的描述、对体系构象空间的采样和模拟结果分析(包括热力学、动力学物理量计算,构象分析,机理分析等)。算法三部分随硬件发展持续优化的同时,加之人工智能(AI)算法在科学领域的探索,特别是与分子模拟的结合,分子模拟领域正迎来新契机。当面对药物设计这一复杂性高、追求“去同求异”的实际应用挑战,如何评价一个分子模拟体系甚至构建一套性能优异体系的重要性便凸显。我们将连续三周就体系势能面、构象空间采样和模拟应用三方面,细致阐述决定分子模拟系统性质表现差异的关键因素。

在描述体系相互作用时,由于体系复杂,基于量子力学第一性原理的方法由于计算消耗过大而应用不多;基于经验模型的分子力学(Molecular mechanics, MM)或力场(Force field, FF),平衡了计算效率和描述精度,成为药物设计的主流技术模型。目前广泛用于药物设计的分子力场,主要包括学术界开发的 AMBER/GAFF 系列力场, CHARMM/CGENFF 力场以及工业界的开发 OPLS 系列力场(薛定谔公司), MMFF (默克公司)等。这些力场的函数形式基本相同,由包括键长、键角、二面角等在内的成键项和如范德华作用、静电作用等非键项构成。力场参数通过一套自洽、复杂但成熟的参数化流程获得,从而对体系的构象变化、分子间相互作用以及相关的体系性质建立相对精确的描述。

Dr. X | 探秘 AI 药物研发底层技术——力场与分子模拟

有的放矢——不同体系力场构建

在药物研发中,模拟的体系包含多种不同的组分,包括蛋白靶标,药物候选配体分子,溶剂,离子等,对这些组分需要选择自洽一致的力场。根据研究体系的组成和复杂度不同,对小分子化合物和生物大分子模拟的力场开发的重点不尽相同。

类药小分子化合物存在巨大的化学空间(约 1060 ),开发空间覆盖充分的力场挑战很大。惯常策略是先覆盖最常用的化学基团,再逐步扩展到更大的化学空间。目前学术界开发的小分子力场公开使用的训练集在百至千数量级,对新化学空间的覆盖精度不够且迭代周期长。归因于保持力场系统自洽一致的小分子力场开发需要的经验和专业性较强,高精度量子力学计算消耗资源大及耗时长,力场开发工具的自动化程度较低,缺少投入资源等。

生物大分子的力场开发一般是基于其组成单元(如蛋白质的组成单元是 20 种天然氨基酸)得到基础的成键和非键参数,所用训练集包括高精度量子力学计算得到的构象 , 偶极,频率,能量,相互作用等数据,以及实验得到的构象布局,液体,溶液性质,光谱等数据得到基础参数,然后再通过更高级结构(比如蛋白质的二级结构分布,折叠蛋白和无序蛋白的构象选择等)的实验数据进一步优化调整参数。这些力场主要由学术界完成,并且开放使用,经过不同的版本迭代和优化,能够描述与生物大分子功能密切相关的构象变化的性质。

突破局限的思路

目前分子模拟中采用的主流分子力场是加和形式的力场,在保持模拟效率的同时,平衡了一部分对体系描述精度的损失。特点在于这些力场的电荷参数都是固定的,并不随环境而变化。为了更好的描述体系变化带来的影响,通过在函数形式中显式的包含极化项贡献的极化力场是一种方法,目前应用相对多的极化力场都由学术界开发,由于计算量有 3-10 倍的增长,模拟软件以及配套模拟功能成熟度的问题,极化力场在药物研发中的使用远不及加和形式的力场。另外一种对体系相互作用描述的函数形式是使用基于神经网络的模型,它代替了经典的分子力场。与分子力场相比,神经网络(Neural network, NN)模型对体系势能面的表示能力更强,原则上在足够多训练数据的情况下可以得到对体系相互作用更精确描述的模型。对于体系势能面表达为

E(x) = fθ(x_feature)

的神经网络模型,x 是体系坐标,E 是相互作用能量,x_feature 是体系的表示(或者叫特征),fθ 是通过可训练参数 θ 表示的势能面模型。由此可见,NN 势能面的性能有三个关键影响因素分别是模型,体系表示和数据。

模型

体系对模型的要求有(1)常规的物理约束,比如整体的旋转-平移不变性,相同粒子的交换不变性等;(2)体系相互作用的物理规律,比如静电相互作用的规律等。模型越接近物理本质,在相同数据和表示下给出的模型表现也往往越好。根据体系的要求,有多种 NN 模型能够满足(1)的要求,但是对于(2)的要求,单纯的 NN 模型很难表达,往往通过大量数据的训练来弥补模型对物理规律描述的缺失。有些方法通过使用物理模型和 NN 模型的组合或者在 NN 模型的设计中耦合物理规律来更好的描述体系相互作用。如何提高 NN 模型结构与问题的物理本质的匹配度,是模型设计的一个方向。

体系表示

体系表示一般分为两种,一种是通过领域经验提取出主要特征,另外一种是通过模型来学习体系的表示。在数据量足够大的情况下,深度网络可以提取出好的体系表示;在小数据情况下,领域专家定义的有物理含义的特征对模型表现提升有更大影响。基于量子力学计算的方式,可以提供大量的训练数据,从而可以采用模型学习的方式来得到较好的体系表示,从而得到与量子力学结果对比较好的结果。但体系表示对使用较少的实验数据做模型的进一步优化所产生的影响还需要进一步研究。

数据

如果模型完全遵守物理规律,那么我们不需要用实验数据来拟合; 反之,如果模型只有表达力而缺少物理本质的有效表达,那么需要大量的数据来拟合模型,以使模型在训练的数据空间内有好的表现,且期待在训练数据未覆盖的空间也有较好的预测表现。那么如何设计使用数据或进一步测量的数据,来优化模型在感兴趣的数据空间内有好的表现,是数据方面需要关注的问题之一。

先进力场的特性

鉴于分子力场在分子模拟中作为基础建设的核心地位以及不同模拟技术发展阶段的判断,晶泰科技的团队结合在云计算和算法的优势以及国际药企的工业应用需求,以大量资源开发出一整套描述类药分子的力场参数—— XFF 。XFF 采用 600 万个高精度量子力学构象数据以及数千个不同的实验数据(包括气相,液相以及溶液相的性质)做为训练集,以实现更大化学空间覆盖,对体系性质具有更高精度的描述。除了参数之外,还需开发一套能够调度海量资源的云计算平台和自动参数化流程,使之能够快速完成一轮完整的参数优化,并且支持不同函数形式以及目标性质的优化需求,以实现根据不同需求定制力场开发。与商业分子力场相比, XFF 力场目前的版本与分子模拟中常用的 AMBER 生物大分子力场保持参数化方案的一致性,因此可以在学术界开发的常用模拟软件中使用,意味着可支持与学术界更好的合作开发。

XFF 分子力场扩展了分子模拟对更高精度力场的选择,且保持迭代更新和更好的开放性,有力的支撑药物研发中对更高精度和更新化学空间的分子力场的需求。

结语

与药物研发相关的问题中,神经网络类型的势能函数已经在小分子构象能变化以及体系均质性相对比较好的问题中有所应用。但是在描述空间异质性比较大的生物大分子,以及生物大分子与配体小分子的相互作用,进而在分子模拟中与构象采样技术和性质预测结合起来,还需要解决大分子靶标的相互作用描述,体系不同组分的相互作用描述, NN 模型在分子模拟中的计算效率,与 NN 势能面上下游结合的模拟技术和软件等问题。因此,新的体系相互作用表示模式在药物研发中的成熟应用还有待较长一段时间的发展。

下一期将着重探讨构象采样,敬请期待。


关于晶泰科技

晶泰科技是一家量子物理与人工智能赋能的药物研发公司,通过提高药物研发的速度、规模、创新性和成功率,致力于实现药物研发的行业革新。作为一家立足中美、服务全球的企业,晶泰科技始终坚持探索最优解决方案,以充分利用前沿的研发与计算资源,最大化满足客户与合作方的需求。

晶泰科技的智能药物研发平台将基于云端超算数字化研发工具与先进的实验能力进行整合,形成高精度预测与针对性实验相互印证、相互指导的研发系统。作为全球先锋人工智能药物研发公司之一,晶泰科技已建立起一整套量子物理干实验室与先进湿实验室紧密结合的研发迭代流程,挑战传统研发的效率瓶颈,赋能新药研发实现创新速度与规模的突破。

业务 / 活动咨询请联系:[email protected]

喜欢本篇内容请点在看


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK