炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:医学界)
转自:医学界
尽管前列腺癌(PCa)的早期筛查已普及,但其作为全球男性第二大常见恶性肿瘤的地位仍未改变,且是癌症死亡的第五大主因[1],但学界对其发病和进展的病因学因素仍缺乏全面的理解。临床上面临的挑战不仅在于治疗,更在于前端的预防和筛查。一方面,年龄、种族和遗传等已知风险因素是不可改变的;另一方面,饮食、肥胖和环境暴露等可变因素与PCa发生之间的关系错综复杂,难以理清。随着医疗数字化进程,海量高维度的临床、实验室和登记数据被不断积累,然而,如何从这些庞杂的数据中提取有价值的隐藏知识,识别出真正影响疾病发生的关键因素,已成为公共卫生和预防医学的瓶颈[2]。因此,迫切需要新的计算方法来系统性地梳理和评估众多潜在风险因素,从而为制定有效的预防策略和筛查指南提供依据。
在Asian Pacific Journal of Cancer Prevention上发表的一篇前沿综述,系统性地梳理了近十年间机器学习(ML)在探究PCa病因学因素方面的应用[3]。文章的核心贡献在于绘制了一幅该领域的“技术图谱”:它不仅归纳了被ML模型验证的关键风险指标,也剖析了研究中偏好使用的计算方法与主要的数据来源。该文旨在厘清过去十年中该交叉学科的研究基石,为后续研究者在模型选择、数据利用和因素聚焦方面提供了宝贵的参照基准。本文特对该综述的核心发现进行提炼与解读,以飨读者。
研究设计
本篇研究是一篇系统性综述,聚焦于利用ML技术识别前列腺癌的关键影响因素。本文的核心方法是遵循PRISMA指南对四大主流数据库(PubMed, Scopus, Web of Science, IEEE)进行系统性检索与回顾,最终纳入23篇研究进行描述性分析,重点阐明了包括年龄、PSA水平、fPSA(游离PSA)及PSAD(PSA密度)在内的最高频风险因素,以及随机森林、支持向量机和逻辑回归等主流ML算法。研究的重点在于归纳分析了当前研究中采用的计算工具(如R和Python软件)、数据来源(如医院记录和SEER、PLCO等公共登记库)以及普遍存在的局限性(如小样本量、回顾性设计等)。在意义上,该文献通过提炼该交叉学科的研究现状与方法学全景,为后续研究者优化模型选择、利用公共数据源以及改进研究设计提供了系统的基线参考与实践指南。
研究结果
本次系统综述的实施依赖于标准化的文献筛选流程,旨在构建一个清晰的研究图景。研究首先遵循PRISMA指南,对四大数据库在2015年至2024年间的数据进行检索,在剔除1018篇重复文献后,通过标题摘要筛选和全文评估,最终纳入23篇研究。在这一研究池中,数据显示了明显的地理集中性,其中中国学者发表的研究最多(7篇),其次是西班牙(3篇)。在数据收集方面,研究呈现高度的回顾性特征,91.3%的研究(21篇)采用了回顾性设计。而在数据来源上,医院的病历记录是主要来源(12篇),此外,MCC-Spain、SEER、PLCO和NCBI等公共数据库或登记处也为研究提供了数据支持。
机器学习层面的分析揭示了指示前列腺癌风险的核心临床与生物学因素。研究从23篇文献中系统性地提取了超过30种影响因素。其中,年龄被证实是关联性最强的因素,在11项研究中均被提及。其次,基于前列腺特异性抗原的指标群构成了风险预测的核心,包括PSA水平(7项研究)、fPSA(游离PSA,6项研究)、tPSA(总PSA,6项研究)和PSAD(PSA密度,5项研究)。此外,前列腺体积、单核苷酸多态性(Single nucleotide polymorphism)、身体质量指数(Body Mass Index)以及f/t PSA比值也在多项研究中被报道,共同构成了当前ML模型预测PCa风险的多维特征集。
表1 影响前列腺癌的因素
在算法和工具领域,研究结果强调了特定ML方法和软件的主导地位。尽管研究采用了多种算法,但逻辑回归、支持向量机和随机森林是应用最广泛的三种模型,均在6项研究中被使用;其次是人工神经网络(4项研究)。在分析软件方面,R软件(6项研究)和Python(5项研究)是研究者的首选工具。然而,该综述也揭示了当前研究的普遍局限性:最突出的问题是未能考虑所有可能的影响因素以及样本量过小,这两点均在5项研究中被提及。此外,单中心研究和回顾性设计也是限制研究结果推广性的主要瓶颈。
总结
本篇系统综述综合阐述了ML在识别PCa影响因素中的应用现状,并明确了该交叉学科在过去十年中的研究图景。研究系统性地归纳了以年龄和PSA相关指标(如fPSA, PSAD)为代表的核心风险因素,以及以随机森林、支持向量机和逻辑回归为代表的主流建模算法。尽管ML方法展现了挖掘数据的潜力,但该领域的研究仍面临严峻的方法学挑战,特别是普遍存在的样本量过小、回顾性设计和单中心数据源等局限,这严重制约了模型的可靠性与推广性。未来研究的焦点应是克服这些局限,例如开展更大规模、多中心和前瞻性的研究。通过纳入更全面的影响因素并改进研究设计,有望推动机器学习从“因素识别”向“精准风险预测”迈进,为前列腺癌的早期预防和筛查提供更稳健的决策支持。
参考文献:
[1] Bray F, Laversanne M, Sung H, et al. Global cancer statistics 2022: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA Cancer J Clin. 2024;74:229–63.
[2] Hermanns T, Wettstein MS, Kaufmann B, et al. BioPrev-C - development and validation of a contemporary prostate cancer risk calculator[J]. Front Oncol. 2024;14:1343999.
[3] Mohammadi S, Imani B, Saeedi S, Amirzargar MA. Identification of Factors Affecting Prostate Cancer Using Machine Learning Methods: A Systematic Review[J]. Asian Pac J Cancer Prev, 2025, 26(5): 1519-1528.