NatRevCancer在癌症诊断中
国自然热点研究方向,话题分类整理,点跟踪订阅
-02-22
国自然冲刺!让专家评审与修改标书,预约国自然小同行专家正在进行中!
-02-28
背景:
关于用于癌症诊断的深度学习的文章数量正在迅速增加,而且经常声称系统的性能与临床医生相当,甚至更好。然而,很少有系统已经展示了真实世界的医疗效用。在这个角度,作者讨论了缓慢进展的原因,并描述了旨在促进过渡到临床的补救措施。最近在癌症诊断领域的深度学习研究可能很有影响力,其中绝大多数使用图像作为系统输入,被评估以揭示该领域的状态。
简介:
年1月29日,来医院癌症遗传学和信息学研究所的H?vardE.Danielsen教授课题组在NatRevCancer(IF:53.03)杂志上发表题为“Designingdeeplearningstudiesincancerdiagnostics”的文章[1]。通过利用真实数据,作者例证了大量多样的训练数据促进了神经网络的泛化,从而提高了临床使用它们的能力。为了降低深度学习系统有偏差的性能评估风险,作者提倡在外部队列中进行评估,并强烈建议计划中的分析,包括预定义的初级分析,优先在在线存储库中的方案中进行描述。建议的方案项目应该为实地建立,并提出了作者的建议。
主要结果:
外部队列评价。
由于深度神经网络固有的高复杂性,严格的性能评估显得尤为重要,作为看似表现良好的深度学习系统可能使用无意的和可能错误的特性,并对输入数据明显不相关的更改做出意外的响应。如果不能正确评估系统,可能会产生深远的后果,包括误导进一步的研究,降低研究结果的可信度,最重要的是,如果用来影响治疗,会变得毫无价值,甚至对患者有害。
外部队列评估的重要性。
作为一个初步评估步骤,深入学习系统的队列用于发展往往是分区随机分成三个不同的子集,本称为训练、调优和测试,应用训练子集的候选人学习深度学习模型,优化子集选择出现的深度学习系统执行最佳应用于评估和测试子集所选系统的性能。测试子集的评估可以提供在开发队列中的表现的无偏估计。通过考虑系统在训练子集上比在测试子集上表现更好的程度,它还可以提供一些关于系统在其他人群中表现良好的能力的信息,因为这表明了对训练数据的过拟合程度。
图1:最近在癌症诊断方面可能有影响力的深度学习研究的特点
普遍性。
尽管增加外部队列的使用是正确验证深度学习系统的重要一步,但仍然存在一个挑战,即确保为这样一个群体获得的结果在整个预期目标群体内提供令人满意的性能衡量标准。这一目标人群通常可能是具有特定癌症类型的患者,尽管通常仅限于疾病的某些阶段,但目标人群通常是广泛的。虽然有些研究可能使用一个以上的外部队列,有些研究使用分布在几个国家的许多中心的试验,但很难获得完全覆盖目标人口的外部队列。因此,深度学习系统的成功应用将依赖于良好的泛化特性,因此在一个总体上的良好性能也表明在某些特性不同的总体上有令人满意的性能。幸运的是,在深度学习中探索泛化是一个活跃的研究领域,通过利用一定的设计原则,深度学习系统已经在众多任务中表现出了非常好的泛化性能。
图2:数据变化对深度学习系统训练的影响
预定义的基本分析。
在深度学习系统的开发过程中,研究人员往往会对不同的系统进行顺序评估,每次评估都有可能通过对之前评估的解释进行学习,并使系统适应用于评估的具体数据。这种重复的评价会使估计数产生偏差,而这些估计数依赖于以前的评价,使得为多次比较而调整的既定统计方法不适用。如果对某一特定深度学习系统的初步分析显示出问题,然后进行纠正,并对其性能进行重新评估,则可能出现类似的再分析问题。这种重复或多次评估的问题,在各种类型发表的医学研究的数据分析检查中是众所周知的,并已被确定为有偏见的推断和不可复制的结果的重要贡献者。
预先确定的初步分析的患病率。
在作者团队对最近可能有影响力的癌症诊断领域的深度学习研究的评估中,所有研究都以评估多个系统、分析多个亚群或使用各种分析方法的形式对外部队列进行了多重分析。在50个合格的评估外部队列的研究中,只有3个(6%)使用一种成熟的方法对多重比较进行调整,例如Bonferroni校正。这意味着大多数的研究应该指定,分析被认为是主要的分析评估外部队列之前,如果这样的决定,为了通知读者分析不受选择性偏差,并帮助区分与一个预定义的研究主要分析从那些反复评估外部队列和可能最终报告严重偏向性能估计。
选择主要指标。
许多医学问题本质上是分类的,例如是否为肿瘤,是否为突变,以及是否提供治疗。然而,深度学习模型往往输出连续的值,反映每个可能结果的预测概率。在这种情况下,预定义的初步分析最好是评估模型输出的分类,以回答医学问题。然后,主要分析将比较外部队列的预测结果和目标结果,例如通过测量所谓的平衡精度。
从概念到应用。
所有有可能影响患者治疗的研究都应经过仔细的评估序列,并由具有预先定义的统计分析计划的协议驱动。图3说明了在开发和评估用于医疗应用的深度学习系统中我们认为的自然和重要步骤。最初的探索性研究旨在回答是否出现深度学习适合手头的任务或进一步调查是否基于深度学习并不是必要的,通常是因为假说似乎无确实根据的或可用的数据预计不会为系统提供足够的性能。在这种试点研究中获得的业绩估计经常因使用有限的发展队列而被夸大,但有希望的结果可能会促进进一步的调查。
图3:深度学习系统的开发和评估
推荐方案项目。
当计划通过严格的回顾性分析来评估深度学习系统的医学有效性时,作者建议在研究方案中明确规定预先定义的初步分析。此类方案中的相关项目与临床试验方案不同,后者是SPIRIT(StandardProtocolitems:Re
转载请注明:http://www.makingchance.com/jbjc/7466.html