查看: 598|回复: 0

Cancer Cell:人工智能在临床肿瘤学中的应用

[复制链接]

824

主题

368

回帖

293

日志

荣誉会员

积分
6526
QQ
发表于 2024-10-30 18:04:11 | 显示全部楼层 |阅读模式
近日,美国哈佛医学院丹娜-法伯癌症研究所Hugo J.W.L. Aerts团队在Cell Press细胞出版社期刊Cancer Cell上发表了一篇题为“Artificial intelligence for clinical oncology”的综述。他们提出几个窄任务人工智能应用于临床癌症治疗的可行方案,回顾了部分人工智能应用程序,还描述了人工智能临床转化中所面临的挑战,并提出解决方案。
691.jpg
Cell Press细胞出版社微信公众号对该论文进行了解读,旨在与广大科研人员深入分享该研究成果以及一些未来的展望。

摘要

临床肿瘤学中,用于改进癌症治疗的数据正在快速增长。随着人工智能(AI)领域的进展,目前已有一定的计算基础能够整合和综合这些不断增长的多维数据,从而进行推断模式、预测预后,以改善患者和临床医生的共同决策。虽然这种方法有很大的潜力,但仍面临重大挑战。在这里,我们提出几个窄任务人工智能应用于临床癌症治疗的可行方案,并回顾了部分人工智能应用程序。我们描述了人工智能临床转化中所面临的挑战,并提出了解决方案。我们还提出了利用人工智能定制患者个体化治疗的前进道路,其重点是临床有效性、实用性和可用性。通过在当前人工智能临床肿瘤学应用的背景下阐明这些问题,我们希望能帮助推进有意义的研究,最终转化为真实世界的临床应用。

介绍

在过去的十年里,人们对人工智能(AI)在医学中的应用重新产生了兴趣。其驱动因素包括深度学习算法的出现、计算硬件的进步以及临床数据的指数级增长(Esteva等人,2019;Kann等人,2020a;LeCun等人,2015)。肿瘤学格外适合人工智能带来的革新技术,能在肿瘤个性化诊疗上产生优势,也能进一步理解治疗响应率个体化差异(Marusyk等人,2012;Schilsky,2010)。与医学其他领域一样,肿瘤治疗的首要目标是提高生命的长度和质量,从实际角度看,这需要选择控制癌症进展、但又具有最小毒性的治疗管理策略。

随着日常治疗中产生的多维数据越来越多,人工智能可以支持临床医生在患者的治疗路径上形成一个个性化的视角,并最终指导临床决策。这些决策依赖于整合不同的、复杂的数据流,包括临床表现、患者病史、病理结果、基因组学、医学成像,并将这些数据与不断增长的科学文献的结论相匹配。此外,这些数据流在患者的病程中处于不断变化的状态。随着人工智能【特别是深度学习(LeCun等人,2015)】的出现,目前已有计算学基础来整合和综合这些数据,以预测患者的治疗路径走向,并最终改进管理决策。

虽然许多因素都是人工智能前景光明,但将AI成功整合入临床肿瘤学中仍面临许多挑战。在分析这些挑战时,关键是不仅要笼统地看待人工智能的前景、成功和失败,而且要在临床上逐案分析。不是每一个癌症问题都适用于人工智能;它的价值并不能用通用的观点去评判,高价值往往体现在特定的临床案例上(Maddox等人,2019)。目前的证据表明,绝大多数已发表的高性能人工智能算法的临床转化仍处于初级阶段(Nagendran等人,2020)。此外,我们认为,人工智能在临床肿瘤学中即将出现的价值在于在癌症治疗路径上针对特定任务、经过临床验证、有应用价值的临床"接触点"上,而不在于端到端决策的、一般的、通用的AI。随着全球癌症发病率的增加和癌症治疗的疾病负荷日益被认可,许多社会正朝着基于数值的治疗系统发展(Porter,2009;YousufZafar, 2016)。随着这些系统的发展,采用数据驱动的工具(可能由人工智能驱动)将有越来越强的动力,这可以减少患者的发病率、死亡率和医疗费用(Kuznar,2015)。

在此,我们描述了人工智能在临床肿瘤学中的关键概念,并从患者癌症治疗路径上临床接触点的角度回顾了一些人工智能在肿瘤学中的应用。我们还描述了人工智能的临床转化中所面临的挑战,并提出了解决方案,最后提出了利用人工智能定制患者个体治疗的前进道路。通过在当前人工智能应用于临床肿瘤学的背景下阐明这些问题,我们希望提供一些概念,帮助推动有意义的研究,最终转化为真实世界的临床应用。

人工智能:由浅层到深度学习

人工智能的概念在20世纪50年代正式形成,最初被定义为机器执行人类任务的能力(Russell和Haller,2003)。在这个领域中,机器学习的概念诞生了,它指的是一个算法学习数据和执行任务的能力,而不需要极致细节的编程(Samuel,1959)。机器学习研究引起了许多"浅层"学习算法的发展和使用,包括早期的广义线性模型,如逻辑回归、贝叶斯算法、决策树和集合方法(Bhattacharyya等人,2019;Richens等人,2020)。在这些模型间最简单的模型(如逻辑回归)中,输入变量被认为是相互独立的,每个变量的单独权重被学习,以确定一个能以最佳方式分离标记数据的类别决策边界。更先进的浅层学习算法,如随机森林,允许对输入变量的组合和关系进行定性和加权,从而使学习过程能够适应更复杂数据的决策边界。

深度学习是机器学习的一个较新的子集,它能够通过整合分层的神经网络,从原始的、非结构化的输入数据中学习模式(LeCun等人,2015)。监督学习代表了医学人工智能中最常见的形式,在监督学习中,神经网络将从这些输入数据中产生预测,并将其与"真相"(ground truth)注释进行比较。预测值和真实值间的差异被封装在一个损失函数中,然后通过神经网络反向传播,经过无数次的循环,模型被优化到使损失函数最小化。

为了将人工智能进行临床应用,我们可以把它看作是一个算法谱系,其效用与被研究任务的特点密不可分。对数据流的透彻理解是选择、开发和优化算法的必要条件。一般来说,深度学习网络在输入、输出以及架构和参数设计方面具有近乎无限的灵活性,因此能够适应前所未有的海量异质且非结构化的数据(Esteva等人,2017)。具体来说,深度学习在多模式数据中学习非线性和高维度关系的倾向性很强,包括时间序列数据、逐像素成像数据、非结构化文本数据、音频/视频数据或生物特征识别数据。具有明显空间和时间异质性的数据特别适合深度学习神经网络(Zhong等人,2019)。另一方面,深度学习的这种能力是以可解释性有限为代价的,如果不在大型、有代表性的数据集上进行训练,就会出现过度拟合数据的倾向(Zhu等人,2015)。虽然传统的机器学习和统计建模在某些预测任务中表现相当好,但与深度学习相比,它们通常难以适应未经处理的、非结构化的、高维的数据。因此,尽管有其局限性,但只要能克服开发和实施中的某些缺陷,深度学习能够打开了肿瘤学“大数据”分析的大门,并有望推动临床肿瘤学的发展。

癌症治疗可以看作一个数学上的优化问题

为了了解人工智能在临床肿瘤学中的应用前景,有必要将数学视角纳入患者治疗路径,包括癌症风险预测、筛查、诊断和治疗。从人工智能的角度来看,患者路径是一个优化问题,其中异质数据流作为输入汇聚到一个数学支架(即机器学习算法)。这个支架在训练过程中被反复调整,直到可以可靠地预测所需的输出,并能够采取行动。在这种情况下,不断增加的输入内容包括患者的临床表现、既往病史、基因组学、影像学和生物计量学等维度的特征,并可大致分为为肿瘤、宿主或环境因素。算法的复杂性通常由这些数据的数量、异质性和维度驱动。最宏观地说,算法的终点是以提高生存和/或生活质量为中心,但这个终点往往需要通过一系列粒度更细的替代终点进行评估。

用于临床肿瘤学的数据流

肿瘤学研究的进展、数据的不断生成和计算技术的进步使得患者数据的呈现从低维向越来越高维转变。早期的数据和计算限制往往需要将非结构化的患者数据(如医学影像和活检)简化为一组人类可理解的疾病程度的离散观测。这种简化的一个明显的例子是癌症分期系统,最突出的是美国癌症联合委员会(AJCC)的TNM分类(Amin等人,2017)。1977年,由于只有三个常用的输入值【肿瘤大小、淋巴节受累和有无转移(TNM)】,第一版AJCC TNM分期成为肿瘤学中风险分层和决策管理的标准。在随后的几十年里,随着其他离散数据点的加入,通过简单的线性模型生成的列线图可以具有预测能力,并在某些情况下获得了实际应用(Bari等人,2010;Creutzberg等人,2015;Mittendorf等人,2012;Stephenson等人,2007)。最近,提取和分析现有数据的方法改进、新数据流的获取、对肿瘤间和肿瘤内异质性的不断了解,都使得越来越复杂和具体的分层模型得到发展。过去20年引入的新数据流的主要例子包括电子病历(EHR)、癌症基因组图谱(TCGA, Weinstein等,2013)、癌症成像档案(TCIA, Clark等,2013)和GENIE项目(AACRProjectGENIE Consortium,2017)。先进的风险分层和预测模型一些例子包括前列腺癌Decipher评分(Erho等人,2013年)和乳腺癌OncotypeDx评分(Paik等人,2004年),它们利用离散的基因组数据和浅层机器学习算法,形成经临床验证的预测模型。有用的肿瘤学数据流,按照可用性的大致时间顺序,可以分为临床表现、肿瘤分期、组织病理学、定性成像、肿瘤基因组学、患者基因组学、定量成像、液体活检、电子医疗记录挖掘、可穿戴设备和电子表型。此外,随着患者沿着癌症治疗路径移动,患者自身的数据流也在增长。患者病程每走过一步,新的数据就从路径中产生,并可能在以后重新被整合进路径中。

随着我们的生物知识库和临床肿瘤学数据流的增长,可以使用机器学习算法来学习适用于越来越精确的患者群体的模式,并产生预测,以指导下一个"看不见的"患者的治疗。随着我们吸收更多的数据,最佳的癌症治疗,是为患者带来最佳生存和生活质量的治疗,也就是精准治疗,实现这一目标的前提是我们有必要的工具来充分利用这些数据。临床肿瘤学的数据复杂性和精准治疗的交叉点,正是人工智能前景的诱人之处,尽管这一愿景尚未实现。

临床肿瘤治疗路径上AI的应用和接触点

我们建议临床肿瘤学的人工智能发展应从患者和临床医生的角度出发,经过以下癌症治疗的接触点:风险预测、筛查、诊断、预后、初始治疗、反应评估、后续治疗和随访。临床接触点途径秉承着肿瘤治疗的连续性(Chambers等人,2018年),但它由更细化的患者和临床医生决策导向的接触点组成,以增强人工智能的临床效益。每个接触点都涉及肿瘤学家和患者要做出的关键决定,并能够提供人工智能的试用范围。此外,接触点的细节将因癌症亚型而异。在这些接触点中,理想的人工智能将会应用于那些有重要未满足需求和大量可用数据集的案例。在有监督机器学习的背景下,这些数据集需要强大而准确的注释,以形成一个可靠的 "金标准数据集",人工智能系统可以在此基础上进行训练。

具有高度可靠性的窄任务

随着临床肿瘤学数据流复杂性的增加,从这些数据中进行模式识别所需的工具也必然更加复杂。同一患者的异质性数据迅速增长,但不同患者间的数据则相对匮乏,而这正是训练大规模模型所需要的。因此,为了积累可推广的模型所需的训练数据,针对治疗路径上特定接触点的特定数据流来评估个别人工智能模型可能会更有成效。

人们很容易想到,鉴于包含多种患者特征和结果的数据流越来越多,人们可以开发一个统一的动态模型来整合和推动精准肿瘤学,从而为肿瘤学家和患者开发一种"虚拟指南"(Topol,2019)。若能在由数十亿个传入数据点组成的数据流之上利用强大的神经网络来预测实时结果并不断提高性能,则这种方法可以与其他革命性的技术相提并论,如自动驾驶汽车和社交媒体推荐。虽然从理论上讲,这种策略有一天可以部署在临床环境中,但这些领域之间存在的巨大差异也提示我们思考是否应该、是否能够在目前追求这种策略。在人工智能应用方面,医疗和技术领域最明显的差异之一是数据质量和数量上的巨大差异。虽然在过去十年中,在电子病历系统广泛应用的推动下,医疗保健领域的数据收集发生了巨大变化,但数据集仍然几乎是孤立的,且受到严格监管,且癌症治疗方面的数据集往往规模受限,无法利用现有最强大的人工智能算法(Bi等人,2019年;Kelly等人,2019年)。其中最引人注目的努力之一,即I BM的沃森肿瘤学(Watson Oncology)项目,试图开发一个广泛的预测机器来指导癌症治疗,但由于其与肿瘤学家的建议不一致以及因此导致的不受信任而用途有限(Gyawali,2018;Lee等人,2018;Somas hekhar等人,2017)。

随着生物学知识的发展,我们现在知道,癌症由成千上万个不同的实体组成,它们将遵循不同的轨迹,且每个实体都有不同的治疗策略(Dagogo-Jack and Shaw, 2018; Polyak,2011)。在计算模型开发中,人们认为对于每个模型输入的特征都存在一个最低所需数据样本量(Mitsa,2019)。在我们追求建议定制化的道路上,积累利用复杂算法所需的训练数据变得更具挑战性。幸运的是,研究者已充分认识到医疗保健领域的这种数据缺口,并且已经提出了一些倡议来简化和统一数据收集过程(Wilkinson等人,2016)。然而,由于医疗数据固有的异质性、分散性和隐私性,我们在肿瘤学领域可能永远无法达到其他技术领域所享有的数据稳健程度。因此,有必要采取一些策略来缓解数据问题,如适当的算法选择、模型结构的改进、数据预处理和数据增强技术。其中最重要的是,仔细选择癌症治疗接触点用例以产生临床影响。

一旦经过严格的测试,这些窄人工智能应用就可以在患者的治疗过程中整合,以提供可观的临床效益。这种由人工智能驱动的患者特征空间降维,可以在目前数据、专业知识和基础设施孤立的环境下优化优质人工智能应用的开发过程。截至目前,大约有20 个FDA批准的针对临床肿瘤学的人工智能应用,其中每一个都利用特定癌症治疗接触点的单一数据流来执行一个窄任务(Benjamens等人, 2020;Hamamoto等人,2020;Topol,2019)。我们认为,人工智能在肿瘤学中的前景将继续由经过严格评估的窄任务模型组成,且每个模型都能为患者生命长度和质量提供小但递增的好处。在接下来的章节中,我们将回顾部分在这种窄任务方法中表现出色的人工智能应用。

贯穿临床肿瘤学接触点的窄任务AI实例

接触点1.风险预测和预防

考虑到癌症诊断和管理给人群和医疗系统带来的负担,人工智能很可能有助于预测患者个人患癌症的风险,从而有效且高效地进行目标筛查和早期干预。从数学意义上讲,患者诊断前的整个个人历史构成了一个巨大的、极其异质的、有待评估的数据流,这使深度学习有发挥作用的空间。利用计算模型来重新定义癌症风险的工具的稳步发展就证明了这一点。过去几年内,已有几种超越传统模型、进一步修正风险预测的深度学习算法得到了研究。其中一些算法利用了近年才可用的新型数据流,包括卫星图像(Bibault等人,2020年)、互联网搜索记录(White和Horvitz,2017年)和可穿戴设备(Beg等人,2017年)等。其他模型则最大限度地利用已有的数据流,包括患者的基因组学、常规成像、非结构化健康记录数据和更深层次的家族史,以改善预测(Ming等人,2020年)。

接触点2. 筛查

癌症筛查指在一个特殊的时间点输入和评估数据,以确定是否需要进行额外的诊断测试和诊断过程。数据流的形式可以是血清标志物、医学影像、视觉检查、内窥镜检查。这些模式中的每一种都为整合人工智能以改善癌症的预测提供了机会。对于血清标志物,如前列腺特异性抗原(PSA),早期研究表明,机器学习算法在不同时间点结合其他血清标志物对PSA进行建模,可能比单独的PSA更能预测前列腺癌的存在(Nitta等人,2019)。与其他任何应用相比,人工智能在医学影像筛查中应用的作用也许更大。应用计算机断层扫描(CT)(Ardila等人,2019年)和乳房钼靶X线(McKinney等人,2020年)分别在肺癌和乳腺癌中定位病变和预测恶性肿瘤风险的窄任务模型已经得到开发,这些应用已经被证明与专家诊断者的表现相当,有时甚至更好(Salim等人,2020年)。在这些应用中,图像的原始像素数据被用作深度学习卷积神经网络的输入,该网络是在放射科医生标记的真值基础上进行训练的。重要的是,虽然这些算法在曲线下面积、敏感性和特异性方面表现出令人印象深刻的结果,但它们并不评估直接的临床终点,如癌症死亡率、医疗费用或生活质量。在医学影像之外,人工智能在结直肠癌的内窥镜筛查中产生了效用,它可以用于指导活检部位的选择(Guo等人,2020;Zhou等人,2020)。此外,人工智能也可能用于提高其他恶性肿瘤的诊断率,因为传统上筛查这些恶性肿瘤是困难且未经证实的。这些恶性肿瘤的筛查可以通过使用人工智能改善对已有数据流【如腹部CT或磁共振成像(MRI)】的分析,或通过其整合多模态数据流(如EHR和基因组数据)的能力来实现。虽然目前美国预防服务工作组(the United States Preventive Services Task Force)(USPSTF,2021)建议对许多癌症不进行筛查,但有一些致力于确定将人工智能纳入筛查标准是否可以筛查更多部位疾病(如胰腺癌)的研究正在进行。

接触点3.诊断

诊断指排除其他良性疾病,以及通过原发部位、组织病理学和越来越多的基因组分类来确定癌症的特征。诊断这一过程通过分析上述三个领域各自的数据流(包括临床检查和医学成像(即影像组学)、数字病理学和基因组测序),代表了这三个领域的人工智能接触点。一项揭示了深度学习在癌症诊断方面前景的关键研究表明,卷积神经网络在利用数码照片对皮肤癌进行分类时可以达到皮肤科医生级别的准确性(Esteva等人,2017)。其他展示深度学习前景的研究包括通过MRI进行无创脑瘤诊断(Chang等人,2018年)和前列腺癌格里森分级(Schelb等人,2019年),乳腺癌(EhteshamiBejnordi等人,2017年)和前列腺癌(Nagpal等人,2020年)的自动组织病理学诊断,以及利用影像学和组织病理学数据来预测潜在的基因组分类(Lu等人,2018年)。到目前为止,筛查和诊断接触点几乎占了所有FDA批准的临床肿瘤学的深度学习应用,其中三种算法专注于乳房钼靶X线检查,另外三种专注于基于CT的病变诊断(Benjamens等人,2020)。

接触点4.风险分层和预后

过去风险分层往往包括TNM分期,但越来越多的额外数据流(如基因组学、先进的成像方法和血清标志物)使得风险分层更加精确。考虑到癌症风险的巨大异质性,风险分层对人工智能来说是一个非常有吸引力的使用案例。在过去20年里,用机器学习开发的基因组分类器已经被整合到一些恶性肿瘤的风险分层中。分类器(如用于乳腺癌的OncotypeDx(一种基于逻辑回归的分类器)和Decipher score(一种基于随机森林的分类器))已经被证明有能力改进预后预测(Spratt等人,2017)和指导治疗(Sparano等人,2018)。Decipher score基因组分类器通过将22个基因组表达标志物输入随机森林模型构建的,该模型被训练来预测单一机构的前列腺癌患者在前列腺切除术后转移的可能性(Erho等人,2013)。这个分类器随后在几个外部环境中得到验证,现在正在进行随机对照临床试验研究(NCT04513717,NCT02783950)。此外,已有研究者探索利用深度学习整合多组学数据以开发风险分层模型的策略,整合的数据包括诊断成像(Kann等人,2020b)、电子病历数据(Beg等人,2017;Manz等人,2020)和基因组信息(Qiu等人,2020)等。此外,通过学习数据库变量之间的非线性关系,深度学习有可能根据大型人口数据库(如监测、流行病学和终点计划(Surveillance,Epidemiology, and End Results program),更好地对患者进行风险分层,尽管初步工作结果有待验证(She等人,2020)。

接触点5.初步治疗策略

初始治疗策略的制定可以说是人工智能在癌症治疗路径中最关键的接触点,因为它直接影响到患者的管理。在过去的二十年里,常见癌症初始治疗方案的数量和复杂性呈指数增长(Kann等人,2020a)。初始治疗的一个常见困境是难以选择对特定患者最佳的系统治疗、放疗和手术组合。利用基因组(Scott等人,2017年)和影像组数据(Lou等人,2019年)预测放疗敏感性的机器学习方法已得到研究。虽然免疫治疗已经在越来越多的疾病中被使用,但基于目前可用的生物标志物预测免疫治疗的反应仍然很困难,而具有影像组学输入的机器学习算法已被证明能够改善预测反应的能力(Sun等,2018)。此外,深度学习在基因组领域内分析多模式数据流的能力也已得到证明:最近的一项分析表明,整合肿瘤突变负荷、拷贝数改变和微卫星不稳定性数据可以帮助预测对免疫疗法的反应(Xie等人,2020)。人工智能还可以实现更准确的''循证治疗''。自然语言处理和强大的语 言模型可以帮助分析已发表的科学工作,并利用现有的肿瘤学文献,比如从EHR中提取医学肿瘤学概念,并将这些概念与文献语料库联系起来(Simon等人,2019)。

接触点6.反应评估

对治疗反应的评估一般包括影像学和临床评估。定量的反应评估标准,如实体瘤的反应评估标准(RECIST)和神经肿瘤学反应评估(RANO)早已被确立为评估治疗反应的可重复方法,尽管在靶向免疫疗法时代,其有效性受到了质疑(Villaruz和Socinski,2013)。然而,随着靶向治疗和免疫治疗进入临床,由于假性进展等现象,仅通过RECIST进行反应评估显然是不够的(Gerwing等,2019)。详细的反应评估通常是一个时间密集的过程,需要大量的人类专业知识和经验,且阅片者自身和阅片者之间的高度差异更为治疗反应的评估提出了额外的挑战。此外,尽管这些标准已经经过定期审查和修订,但它们在捕捉边缘案例方面仍然不合适,例如在接受免疫疗法的患者中,病变反应是可变的。深度学习已经表现出了自动评估反应的潜力,包括自动RANO评估(Kickingereder等人,2019年)和接受免疫治疗的患者的RECIST反应(Arbour等人,2020年)。

接触点7.后续治疗策略

考虑后续治疗策略的人工智能算法开发时,与初始治疗策略相比,有一些具体的考虑因素会产生额外的复杂性。首先,有额外的数据流需要考虑,如先前的治疗、治疗相关的毒性、用于重新分期的影像,以及常常具有的多个组织标本。考虑到数据流的异质性和可用于建立这些模型的患者群体的萎缩,后续治疗策略对于循证决策以及对于可靠的人工智能应用来说都是一个具有挑战性的领域。利用纵向随访信息的算法可能在这方面有所帮助。在一个例子中,人工智能已被证明有能力综合化疗后肺癌患者的连续CT随访成像,并预测以后的复发(Xu等人,2019年)。诸如此类的干预措施可以指导患者选择接受巩固性治疗,如手术或免疫疗法。

接触点8.随访

人工智能肿瘤学应用的另一个未被充分探索的领域是开发指导精准随访的工具。诊断和筛查算法往往可以转移到随访问题中,但需要对感兴趣的任务进行再训练和验证。与接触点7类似,先前的癌症治疗对数据流的影响往往会使问题发生重大转变。例如,从同一肿瘤中提取的放射组学特征,在治疗前和治疗后显示出明显的差异(vanDijk等人,2019)。这些''改变的''特征可用于预测患者的复发风险和后期毒性,帮助定制后续计划(Chang等人,2019年)。适当地分流患者进行进一步的随访和关注,可以降低发病率并更有效地利用医疗资源;利用EHR数据的人工智能已被证明有能力通过选择在接受癌症治疗时有急症风险的患者、并将他们分配到升级的预防治疗策略中来实现这一目标(Hong等人,2020)。在患者发生无法治疗的复发时,生命末期的治疗成为一个极其重要和具有挑战性的过程。人工智能在这里也显示出了潜力,它可以对死亡风险高的患者进行分流,并促使医生与患者就他们的价值观、愿望和生活质量选择进行交流(Ramchandran等人,2013)。

临床转化的挑战:超越性能验证

近年来出版物和公布的数据集激增,表明肿瘤学人工智能的发展取得了巨大的进步,但人工智能性能的证据和临床影响的证据之间仍有很大差距。虽然已经有数千项关于深度学习算法性能的公开研究(Kann等人,2019年),但最近的一项系统综述发现,只有9项前瞻性试验和2项已发表的随机临床试验探索了深度学习在医学成像中的效用(Nagendran等人,2020年)。

正如上文所提到的,也许在肿瘤学和整个医疗保健领域发展临床人工智能应用的决定性障碍是数据限制,包括质量和数量。数据整理、汇总、透明度、偏倚和可靠性等方面的问题已经得到很好的描述(Norgeot等人,2020;Thompson等人,2018)。此外,人工智能模型的可解释性、可信度、可重现性和可推广性的缺乏也已得到了充分且合理的关注(Beam等人,2020)。虽然所有这些挑战都是成功开发人工智能必须克服的,但在此我们仅介绍几个专门针对已经在初步开发和验证阶段取得成功的模型进行临床转化的概念:临床准确性、实用性和可用性。将这些概念纳入模型设计和评估很容易被忽视,但对于将临床人工智能从研究和开发阶段推进到现实世界的癌症治疗至关重要。

为了证明临床有效性,通常按以下一般顺序对模型进行评估:内部验证、外部验证、前瞻性测试和在感兴趣的真实世界人群中进行小范围测试(Park等人,2020)。应遵循最近制定的准则,如FAIR数据、CONSORT/SPIRTAI和(开发中的)TRIPOD-AI检查表,以确保可重复性、透明度和方法学的严谨性(Liu等人,2019)。这些指南是在标准化人工智能模型开发途径和建立确定人工智能研究方法学严谨性的基础上迈出的重要一步。虽然绝大多数人工智能发表的研究包括内部不可见测试集,但利用外部验证集的研究少得多,且采用前瞻性测试并与人类专家进行基准比较的研究则更少(Kim等人,2019)。鉴于大多数人工智能模型缺乏假设驱动的特征选择,如果测试数据的分布与训练数据不同,在现实世界中应用时性能会有很大的差异(MorenoTorres等人,2012)。出于这个原因,多个外部验证集是最为重要的。除此之外,通常很难预测一个模型在边缘病例上的表现,比如那些在训练数据中代表性不足的病例(Oakden-Rayner等人,2020)。在肿瘤学实践中,识别罕见的临床发现对安全的癌症治疗至关重要,因此必须考虑到这一点,以证明一个模型在临床上是有效的。减轻模型在现实世界使用中失败风险的方法之一是在感兴趣的场景中进行试验性、"沉默"的前瞻性测试(Kang等人,2020)。如果一个模型在磨合期表现良好,就可以在一定程度上保证它的安全使用,尽管在极少数情况下模型的表现可能仍然难以推测。

证明临床实用性需要以临床有效性为前提,但要超越性能验证,对有临床意义的终点进行测试。对于某些诊断应用来说,常用终点(如ROC曲线下面积、敏感性或特异性)的高性能可能就足够了,但在现实世界发挥作用将需要对治疗途径中的每个接触点进行适当的临床端点验证。就肿瘤学而言,这包括总生存期、疾病控制、毒性降低、生活质量提高和医疗资源利用率降低。对这些终点的测试最好是在随机试验的背景下进行。金标准是将患者随机分配到人工智能干预组中,并直接比较临床终点。一些这样的试验已经完成,其中一个值得注意的例子是测试结肠镜检查中息肉检出率的准确性(Wang等人,2019年)。在这项研究中,主要终点是腺瘤检测率。尽管人工智能系统的优越性在一些用例中得到了证明,但在生活质量或生存方面的下游临床效益还需要进一步调查。人工智能临床试验的另一种方法是对所有患者应用经验证有效的AI模型进行风险分层,然后应用随机干预措施。这在一项试验中得到成功,该试验利用EHR数据预测放疗期间急诊科(ED)就诊高风险的患者(Hong等人,2020),随后高风险患者被随机分配到常规治疗组或额外预防随访组。结果发现,接受额外随访的高风险患者的急诊和住院率明显降低,而低风险患者在没有额外随访的情况下,其急诊和住院率普遍较低。虽然与真正的随机试验相比,这种研究策略提供的临床效用证据水平较低,但对于基于人工智能的风险预测模型来说,这种研究策略具有吸引力和实用性,且这种AI风险预测模型在AI应用中占了很大比例。随机临床试验的执行是出了名得困难和耗时,而人工智能干预的独特特点使这类工作更加艰巨。值得注意的是,人工智能模型能够利用新的数据并随着时间的推移而改进;在传统的随机试验中,如何考虑到这一点呢?虽然我们需要人工智能支持随机试验以真正证明临床效用,但现在可能是时候认识到,为了适当研究人工智能应用的好处,可能需要在传统的随机临床试验重新设计(Haring,2019)。

除了验证有临床意义的终点之外,证明临床适用性还包括在真实世界环境中研究人工智能模型,使其与临床医生和患者对接;评估该模型对时间任务、用户满意度和对人工智能建议的接受程度的影响(Kumar等人,2020)。反馈机制应该被整合到AI平台的设计中,以确定薄弱点和改进界面的机会(Cutillo等人,2020)。此外,设施与设施之间、设施内部和医疗点的系统之间的互操作性对于简化工作流程至关重要(He等人,2019)。可用性问题也是针对正在分析的数据流而言的。新的数据流,如移动健康数据和可穿戴活动监测器,都对可用性和数据利用提出了独特的挑战(Beg等人,2017)。促进可用性的一个关键组成部分是人工智能算法的可解释性。随着数据流变得更加相互关联,越来越难以辨别支持算法预测的生物或临床依据。这种"黑箱"效应在某些消费电子行业可能是可以接受的,但由于医疗决策的后果和医学性质,缺乏可解释性对临床使用构成了巨大的障碍(Doshi-Velez和Kim,2017;Wang等人,2020)。幸运的是,有一个不断增长的研究领域致力于研究可解释性问题,一些技术,如显著图、隐态分析、变量重要性评价和特征可视化可以阐明人工智能预测原理的某些方面(Guo等人,2019;Olah等人,2018)。除此之外, 人因(Human Factors)研究的进展以及与适当的专业人员合并流程,可以帮助简化算法应用流程,以期简化临床验证步骤。最后,将算法转化为临床可用的解决方案需要强大的信息技术支持服务,可能需要临床机构和部门的专门投资。

与临床适用性相关的另一个关键概念是解决当多个人工智能模型序列或同时应用于某一场景中挑战。这些情况的协调需求将变得更加普遍,需要注意最终用户的责任、互操作、访问和培训。患者在肿瘤治疗过程中直接或间接与许多不同的医疗工作者互动,这些医疗工作者可能是特定人工智能应用程序的主要用户。这些用户可能主要扮演诊断和治疗的角色。从一个简化的角度来看,癌症治疗路径的主要诊断者是病理学家和影像学家,而主要治疗者往往是内科、放射科、介入科和外科肿瘤学家。这一过程中的多学科接触点,如肿瘤委员会,代表着整理和协调不同的人工智能应用的机会。除了医生之外,还有许多高级治疗提供者,如护士和医生助理,以及心理医生、社工和医学生,他们可能是特定人工智能应用程序的用户。例如,如果一个患者接受了CT扫描,并由人工智能生成了恶性肿瘤的预测,而这一预测随后被用作另一种算法的输入,以推荐手术作为治疗,那么谁是主要负责利用和传播该信息的"指定用户"?更进一步,从逻辑上讲,是谁对基于使用该模型的决定负有法律责任。这些问题的具体解决方案还没有成型,但这些问题可能会在特定的个案产生严重问题。这种人工智能模型的临床协调需要进一步的资源、研究、以及针对医疗人工智能开发者和癌症治疗提供者的指南,以为解决这些复杂的问题提供方向。

尽管FDA批准肿瘤学适应症的人工智能应用很少,但有许多应用正在进行中,人们对简化开发AI和临床转化间差距的方法有很大兴趣。因此,FDA正在为获批的临床应用设计人工智能和机器学习的具体指南。最近发布的行动计划纳入了上述临床概念,并为进一步确定人工智能向临床安全转化的框架奠定了基础(FDA,2021)。

结论

数据流的增长和算法的进步使AI能够在癌症治疗路径的特定接触点改进临床肿瘤学。虽然许多临床肿瘤学人工智能应用正在开发中,要弥合AI与临床转化之间的差距,仍然存在巨大的挑战。最成功的模型是利用大规模的、有稳健注释的数据集来完成特定癌症治疗接触点的窄任务。癌症治疗的人工智能应用的进一步发展应集中在临床有效性、实用性上,这还需要在模型的开发和评估中更强调患者-治疗提供者、临床决策的重要性。

相关论文信息

论文原文刊载于CellPress细胞出版社旗下期刊Cancer Cell上,点击“阅读原文”或扫描下方二维码查看论文

▌论文标题:

Artificial intelligence for clinical oncology

▌论文网址:

https://www.cell.com/cancer-cell/fulltext/S1535-6108(21)00210-5

▌DOI:

https://doi.org/10.1016/j.ccell.2021.04.002


原创 Cell Press CellPress细胞科学


生命科学 Life science
希望疫情早日结束!
回复 关闭延时

使用道具 举报

您需要登录后才可以回帖 登录 | 注册  

本版积分规则

快速回复 返回顶部 返回列表