6

AI为人类开药方:准确预测9000名癌症患者适用药物!成果登上Nature子刊,出自华人团队

 1 year ago
source link: https://www.qbitai.com/2022/11/39458.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

AI为人类开药方:准确预测9000名癌症患者适用药物!成果登上Nature子刊,出自华人团队

head.jpg明敏 2022-11-13 15:41:28 来源:量子位

通讯作者为中科大校友

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

只需一个AI,9808名癌症患者对药物的临床反应,全能预测。

而且结果和临床观察表现一致。

这就是由纽约市立大学Lei Xie团队带来的最新成果CODE-AE(context-aware deconfounding autoencoder)。

0d8ee959a76c4315bd7c032f70348df4~noop.image?_iz=58558&from=article.pc_detail&x-expires=1668922517&x-signature=3FmNxiLuinsD5FQafu2kDnyiKgI%3D

它提出一种新型的上下文自编码模型,可以预测不同患者对药物的特异性反应。

这将对新药开发和临床试验产生重大影响。

要知道,传统模式下一种新药开发、试验、完全上市,中间需要近10年的时间,消耗的资金也空前庞大,动辄就是10亿美元。

周期会如此之长,是因为新药在人体内的反应难以预测,往往需要反复试验进行测试。

而如果AI能够利用数据进行预测,将大幅缩短新药上市时间,降低成本。

目前,该研究登上Nature子刊《Nature Machine Intelligence》。

不再高度依赖临床数据

简单来说,CODE-AE是利用新药在体外细胞验证上的数据,来预测药物在人体身上会产生的反应。

这样就避免了AI模型训练对患者临床数据的依赖。

过去AI在临床反应预测上效果一直不算好的最大原因,便是想要收集海量、连续临床反应数据实在是太难了。

从机制上来看,研究人员将药物生物标志物分为了源域(source domain)和目标域(target domain)。

源域表示和测试样本不同的领域,但是有丰富的监督信息,在这里可以理解为体外细胞验证的数据。

目标域是测试样本所在的领域,无标签或只有少量标签,也就是患者数据。

d9736c4e662146fc873372d5fa42235e~noop.image?_iz=58558&from=article.pc_detail&x-expires=1668922517&x-signature=pTPxMWfH5iSCl5fSqtXY%2BIHAzJA%3D

将不同领域的数据特征映射到同一个特征空间,使其在该空间中的距离尽可能近。

于是在特征空间中对源域训练的目标函数,就可以迁移到目标域,提高目标域上的准确率。

放在该研究背景下,源域和目标域都是药物生物标志物的数据特征,即药物靶标的数据特征。

具体来看模型框架,主要分为三个部分:预训练、微调和推理。

预训练主要用了自监督学习,构建一个特征编码模块,将体外细胞数据和患者数据的未标记基因表达谱,映射到嵌入空间中。这样一来可以把一些混杂因素排除掉,让两种数据的潜入分布一致,以消除系统偏差。

微调阶段,是在预训练的基础上再加一个监督模型,并利用已经标记的体外细胞数据来进行训练。

最后在推理阶段,先从预训练中获得的患者去歧对其嵌入,然后再利用调优后的模型,来预测患者对药物的反应。

8baf4cd7666d44b7aa9d3568dc145c30~noop.image?_iz=58558&from=article.pc_detail&x-expires=1668922517&x-signature=nvAg47MuGdJ%2BwtBcDdF93sKhCFk%3D

在这种模式下,CODE-AE具备两个特点。

第一,它可以提取不连贯样本中的常见生物信号和私有表示,从而排除掉由于数据模式不同带来的干扰。

第二,将药物响应信号和混杂因素分离后,还可以实现局部对齐。

总结来看,CODE-AE可以理解为在标记和无标记数据的非相干数据模式嵌入空间中,选择唯一特征的过程。

为了论证模型的有效性,研究人员对9808位癌症患者的药物适用情况进行预测。

如果模型对患者情况预测出的位点结果,和他使用的药物靶点有关,就证明预测是正确的。

然后,研究人员将患者分为100个聚类,将59种药物也分为30个聚类。

通过这种分析方法,可以让具有相似药物反应谱的患者被分在一起。

在此,我们以肺鳞状细胞癌患者(LSCC)和非小细胞肺癌患者(NSCLC)的聚类为例。

在59种药物中,LSCC最敏感的药物为吉非替尼、AICAR和吉西他滨。

其中吉非替尼、AICAR的作用靶点都是一种表皮生长因子受体(EGFR),吉西他滨常被用于没有EGFR突变的非小细胞肺癌治疗。

论文表示,和这些药物作用模式一致,CODE-AE发现使用吉非替尼、AICAR的患者,药物反应图谱相似。

也就是说,CODE-AE发现了患者治疗的正确靶点,即可以预测适用药物。

34dc30a1e5594f859f3110866dc6f170~noop.image?_iz=58558&from=article.pc_detail&x-expires=1668922517&x-signature=un8OzLacz5EPWy5QLQoDvnG3mI0%3D

通讯作者系中科大校友

如上研究团队来自纽约市立大学。

通讯作者为Lei Xie,他本科毕业于中国科学技术大学高分子物理专业。

硕士毕业于罗格斯大学计算机科学专业;博士同在罗格斯大学,但拿的是化学系学位。

8fa8f7fda2af499a807010acc89d27d9~noop.image?_iz=58558&from=article.pc_detail&x-expires=1668922517&x-signature=WRRK7Wxz5sc5n6ElfXxUfQWfzkc%3D

据了解,该研究团队下一步将开发CODE-AE对新药临床反应在浓度、代谢方面的预测功能。

研究人员表示,该AI模型还有可能被调整为用于预测药物对人体的副作用影响。

值得一提的是,Nature子刊《Nature Machine Intelligence》专门关注人工智能和生命科学跨学科应用研究,每年收录论文平均数量在60篇左右。

论文地址:
https://www.nature.com/articles/s42256-022-00541-0

参考链接:
https://phys.org/news/2022-10-ai-accurately-human-response-drug.html

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK