标题:Metabolomic machine learning predictor for diagnosis and prognosis of gastric cancer
发表杂志:Nature Communications
IF:16.6/Q1
发表时间:23 February 2024
研究背景
胃癌是全世界范围内的一种高致命性癌症,早期诊断发现和精准的术后干预措施可有效改善患者的临床结果。目前,临床诊断胃癌的金标准是内窥镜检查,但因其具有一定的侵入性,成本高等问题,在很大程度上限制了临床使用。在临床预后预测方面,更依赖于外科医生基于多种临床指征(肿瘤位置、TNM 分期和组织病理信息)的经验判断,准确性有限。因此,开发一种高灵敏度、高特异性且非侵入性的检查方法来诊断胃癌,并更精确的预测患者结局,从而进行分层管理和适当干预则至关重要。
清华大学药学院、哈尔滨医科大学及中国医学科学院肿瘤医院联合在 Nature Communications 杂志上发表了题为“Metabolomic machine learning predictor for diagnosis and prognosis of gastric cancer”的文章。通过患者血浆的代谢组学检测,首先描述了胃癌的代谢重编程过程,并结合机器学习构建了名为 10-DM 和 28-PM 的 2 个模型,用于准确诊断胃癌患者及预测术后风险。

实验设计
该研究一共纳入了 702 名个体的血液样本,包括 389 名不同时期的胃癌(GC)患者和 313 名非胃癌(NGC)的对照。通过液相色谱-质谱联用(LC-MS)靶向代谢组检测技术,检测出包括:氨基酸、核苷酸、有机酸、核苷、维生素、酰基肉碱、胺类和碳水化合物在内的 147 种代谢物。然后,研究者者比较了 Cohort 1 中 GC 和 NGC 的代谢物差异,并使用机器学习(ML)算法分析了代谢产物与临床表型之间的关系。开发出了基于 10 个代谢物的 GC 诊断模型(10-DM),并利用外部数据集 Cohort 2 验证模型稳定性。此外,研究者还利用 Cohort 3 的代谢组学数据,构建了基于 28 个代谢物的 GC 患者预后预测模型(28-PM)。与传统标志物检测方法相比,该研究中获得的 2 个模型,均具有更优越的评价效果。

研究路线概述
主要结果
GC 患者的血浆代谢重编程图谱绘制
首先,研究者比较了 GC 患者和 NGC 对照的代谢组学数据,通过主成分分析(PCA)可区分 GC 和 NGC 样本,表明 GC 代谢组经历了重构,并发现 45 种代谢物在两者之间存在显著差异。随着癌症的进展,这些差异代谢物可聚类成 3 个 Cluster,其中 Cluster 1 出现逐步升高的模式,Cluster 2 则为逐步下降的趋势。根据 KEGG 富集分析,研究者发现 GC 样本中谷胱甘肽、半胱氨酸和甲硫氨酸代谢通路的变化最大,说明血浆代谢物在 GC 检测和预测中的潜在效果。

GC 患者血浆代谢图谱的重编程
机器学习获得 GC 早期诊断标志物
接下来,研究者利用机器学习(ML)技术建立预测临床状态的模型,开发创新的癌症诊断方法。首先采用 LASSO 回归算法,筛选到了 10 种代谢物可鉴别 GC 和 NGC;然后,通过 Random forest model 算法结合 Ensembled classifier 构建诊断模型(10-DM)。在 Test set 1 中验证模型的诊断预测性能,ROC 曲线下面积(AUROC)为 0.967(灵敏度:0.854,特异性:0.926)。此外,研究者发现 10 种代谢物对 10-DM 模型的贡献相对均匀,其中琥珀酸、尿苷和乳酸的贡献最重要。GC 发生和发展过程中的相对丰度分析表明,所有 10 种代谢物在 GC 和 NGC 对照之间都有显著差异,其中 5 种在 GC 中显著上调,5 种显著下调。为了进一步评估 10-DM 模型在早期 GC 诊断中的有效性,研究者分别使用 Test set 1 和 Test set 2 中的 GC患者 IA/IB 期数据和 NGC 进行区分。发现该模型对 IA 期患者的预测准确率为 90.9%,IB 期患者预测准确率为 92.7%,说明 10-DM 模型在 GC 的早期诊断方面也具有较高的敏感度和可靠性。

基于血浆代谢组的胃癌诊断 10-DM 模型
10-DM 模型与传统方法和其他算法的诊断性能比较
为了评估 10-DM 模型在诊断中是否表现出优越性,研究者还把 10-DM 模型与传统的临床肿瘤生物标志物 CA19-9、CA72-4 和 CEA(统称为 3-biomarker panel)进行了比较。发现 CA19-9、CA72-4 和 CEA 的诊断的灵敏度分别为 0.217、0.317 和 0.165,而 10-DM 模型的诊断灵敏度为 0.925。并且,值得注意的是,10-DM 模型的性能更好并不是高假阳性率的造成的。此外,再结合 3-biomarker panel 一起进行诊断时,发现 10-DM 模型在临床的实用性还可能增强(灵敏度为 0.975)。研究者还使用不同的机器学习算法,包括:支持向量机(SVM)、逻辑回归(LR)、随机森林(RF)和 PLS-DA,对 10-DM 模型的性能进行了基准测试。10-DM 模型始终表现出最佳的模型性能。

10-DM 模型与临床诊断指标准确性的比较
基于代谢产物构建 GC 预后模型
在 Cohort 3 中,研究者收集了 181 名 GC 患者的血浆代谢组学数据,并拆分成了 Training set 和 Test set 。针对 Training set,首先利用 Random forest model 算法建立了一个包含 28 种代谢物的预后模型(28-PM)。然后在 Test set 验证模型性能,AUROC 达到 0.832。有趣的是,研究者发现其中的 11 种代谢物可以显著区分 Test set 患者的总生存期(OS)。说明 28-PM 模型在预测 GC 患者临床预后方面具有良好性能。此外,研究者还与临床常用的预后评估经验进行了比较,并进一步尝试讲临床特征纳入 28-PM 模型,希望增强模型的预测能力。结果显示,28-PM 模型的预测结果均高于常用的临床经验,但临床经验特征的加入没有改善模型的预测效果。最后,研究者进一步评估了 28-PM 模型对 Test set 中每一个患者的预后风险(高或低)预测效果。结果表明,高风险组患者的总生存期(OS)和无病生存期(DFS)更低,死亡比例更高,低风险组患者的非转移和非复发者更多。综上所述,28-PM 模型在预测 GC 患者不同阶段预后效果方面具有较强的稳健性,并可以成功的识别出需要精细化治疗方案的患者。

28-PM 模型在预测 GC 患者预后效果方面优于临床常用经验
总结与展望
该研究利用 AI 建模对血浆代谢组学数据进行分析,以发现预测生物标志物,展现了其在 GC 的早期诊断、预后评估和风险检测中的潜在价值。通过多中心的 GC 和 NGC 样本,显著提升了模型结果的普适性和可靠性。研究还结合临床经验等相关参数,探索了多模态数据在 AI 建模中用于生物标志物分析与预测的可行性与应用潜力。总之,该研究成果不仅为进一步探索 GC 的代谢特征和生物标志物提供了重要线索,还为将代谢组学和机器学习在临床 GC 诊断和预后中的结合与应用,提供了新的思路和方法。
【参考文献】
Metabolomic machine learning predictor for diagnosis and prognosis of gastric cancer. Nat Commun 15, 1657 (2024).
http://doi.org/10.1038/s41467-024-46043-y
关于焕一生物
焕一生物(AliveX Biotech)是中国领先的AI+多组学技术平台公司,拥有端到端干湿实验闭环的多组学实验平台以及AI生物计算平台,包括时空单细胞组学,靶向蛋白组学、代谢/脂质组学等高质量生物检测分析技术以及多组学整合分析、AI建模、知识图谱、疾病药理机制建模等计算技术高效赋能研发。焕一生物拥有国际领先的跨学科院士教授以及产业专家团队,为科研以及药企合作伙伴提供定制化的科研解决方案,包括疾病与药物的机制研究,生物标志物和靶点的发现与评估,患者分层,多模态AI预测,临床试验方案与精准诊疗方案的优化等。焕一生物已服务上百家临床及科研院所和国际大型药企。公司拥有核心技术自主知识产权数十项,并获得国家级高新技术企业认证,美国病理学会CAP认证,ISO9001认证。

收藏
登录后参与评论