


在乳腺癌已成为全球女性健康首要威胁的今天,早期鉴别肿瘤良恶性、避免不必要的创伤性活检,依然是临床实践亟待破解的关键难题。一项发表于《International Journal of Medical Informatics》的研究带来一个革命性的系统视角。本研究由九江市第一人民医院联合南昌大学第一附属医院开创性地采用“可解释机器学习”的系统性策略,旨在绘制一幅清晰的辅助决策导航图。
你还不知道吗?“机器学习+SHAP解释”搭配GBD /CDC /NHANES /CHARLS 等数据库,这就是妥妥的创新思路啊!如果你也想利用同款方法进行数据分析,那就快来后台联系光速医研吧~



文 献 简 介




标题:开发和验证用于区分良性与恶性乳腺癌的可解释机器学习模型
发表期刊:International Journal of Medical Informatics
发表时间:2026年1月20日
影响因子:4.1/ Q2
关键字:乳腺肿瘤;机器学习; SHAP可解释;影像学
如果你也想利用数据库进行数据分析,那就快来联系光速医研吧~



研 究 背 景

Science
乳腺癌已成为全球最常见的恶性肿瘤,尤其在女性中发病率居首。早期诊断对改善预后至关重要,数据显示局部病变与转移性乳腺癌的5年生存率差异显著,凸显了早期筛查与风险分层在降低死亡率和治疗负担中的关键作用。


研 究 方 法

Science
在训练集中使用5折交叉验证比较XGBoost、逻辑回归、随机森林和SVM四种算法,以平均AUC为主要评价指标。最终选择逻辑回归作为最终模型,在固定测试集和外部验证集上进行性能评估,包括AUC、灵敏度、特异性、校准曲线、决策曲线分析及SHAP可解释性分析。



数 据 来 源

Science
数据来源:本研究数据来源于一项在两个临床中心开展的回顾性诊断预测研究
时间范围:研究纳入的患者其临床与影像数据采集时间集中于2021年1月至2024年10月
总体样本::开发队列共纳入745例乳腺肿块患者,外部验证队列共纳入221例患者。
队列划分:开发队列按7:3比例随机划分为训练集(n=522)与内部测试集(n=223),外部验证队列独立用于模型泛化性能评估


研 究 结 果

一、 患者特征

表1. 研究人群的基线特征


二、模型性能分析

表2. 多变量逻辑回归结果
表3. 每个模型的详细参数

图2.多模型综合比较与验证
森林图显示逻辑回归在验证集AUC最高且训练-验证差距最小;ROC曲线显示逻辑回归和XGBoost在训练集和验证集上表现相近;

表4.最终选定模型的性能(逻辑回归)
该表显示逻辑回归模型在训练集(AUC=0.910)、验证集(AUC=0.905)和测试集(AUC=0.865)中的稳定表现。

图3.最终后勤模型(A)ROC(培训)的综合绩效评估
训练、验证和测试集的ROC曲线,AUC分别为0.910、0.905和0.865;测试集校准曲线显示预测概率与实际观测一致性良好;学习曲线显示模型已收敛,无过拟合;


三、模型可解释分析

图4. 最终模型的分类性能与可解释性

表5.外部验证集的性能(逻辑回归)
SHAP全局重要性排序:Age > TT > CEA > APTT > Ca;SHAP蜂群图显示Age、TT、CEA和Ca值越高风险越大,APTT越高风险越低;SHAP力图示例展示单个患者的风险贡献分解。

图5.外部验证面板(A) ROC(外部测试队列)
外部验证队列ROC曲线AUC为0.861(95%CI: 0.804-0.919);混淆矩阵显示特异性达0.883,PPV为0.934;校准曲线接近理想线(Brier=0.145);

总 结



本研究成功构建并验证了一个基于常规实验室指标的逻辑回归模型,用于区分乳腺肿块的良恶性。模型仅使用年龄、TT、APTT、CEA和钙五个易获取指标,在内部和外部验证中均表现出良好的鉴别能力与临床适用性。
如果你也想利用同款方法进行数据分析,那就快来联系光速医研吧~


往期推荐
RECOMMEND
IF6.0!“机器学习+SHAP解释”联合多模态轻松发二区!精准预测青少年心理健康风险

点赞
收藏
分享