研究人员发现,在2020年科学论文中描述的300多种COVID-19机器学习模型中,由于偏见,方法缺陷,缺乏可重复性,它们都不适合从标准医学成像中检测或诊断COVID-19。 和“科学怪人数据集”。

由剑桥大学领导的一组研究人员对科学手稿进行了系统的审查,该手稿于2020年1月1日至10月3日出版,描述了机器学习模型,该模型声称能够通过胸部X光片诊断或预测COVID-19。 (CXR)和计算机断层扫描(CT)图像。其中一些论文经过了同行评审,而大多数没有。
他们的搜索确定了2,212项研究,其中初筛后包括了415项,质量筛查后,有62项研究被纳入系统评价。鉴于迫切需要经过验证的COVID-19模型,因此62个模型中没有一个具有潜在的临床用途,这是一个主要弱点。结果发表在《自然机器情报》杂志上。
机器学习是用于疾病检测和预后的有前途且潜在强大的技术。机器学习方法,包括将影像和其他数据流与大型电子健康数据库相结合的方法,可以通过改进对治疗的个体反应的诊断和预测来实现个性化的药物治疗方法。
剑桥大学应用数学和理论物理系的第一作者迈克尔·罗伯茨博士说:“但是,任何机器学习算法都只能与训练过的数据相提并论。” “特别是对于像COVID-19这样的新型疾病,至关重要的是,训练数据应尽可能地多样化,因为正如我们在整个大流行中所看到的那样,有许多不同的因素会影响该疾病的外观及其发生方式。表现得很好。”
剑桥大学医学系的联合资深作者詹姆斯·鲁德(James Rudd)博士说:“国际机器学习社区为使用机器学习解决COVID-19大流行付出了巨大的努力。” “这些早期研究显示出希望,但它们在方法和报告方面普遍存在缺陷,我们所审查的文献均未达到支持临床实践中必不可少的稳健性和可重复性的门槛。”
许多研究受到以下问题的困扰:质量数据质量差,机器学习方法的应用性差,可重复性差以及研究设计存在偏见。例如,一些训练数据集使用来自儿童的图像作为其“非COVID-19”数据,使用来自成人的图像作为其COVID-19数据。罗伯茨说:“但是,由于儿童比成年人少获得COVID-19的机会,所以所有机器学习模型都可以有效地分辨出儿童和成年人之间的区别,因为包括儿童的图像使该模型有很大的偏见。”
许多机器学习模型都是在样本数据集上训练的,样本数据集太小而无法有效发挥作用。陆克文说:“在大流行的初期,人们对信息的渴望如此之大,毫无疑问,某些出版物是急于求成的。” “但是,如果您将模型建立在单个医院的数据基础上,则可能无法使用下一个城镇的一家医院的数据:数据需要多样化且理想情况下是国际化的,否则您将进行机器学习如果经过更广泛的测试,则无法进行建模。”
在许多情况下,研究没有指定数据的来源,也没有对模型进行相同的数据训练和测试,或者基于可公开获得的“ Frankenstein数据集”,这些数据随着时间的流逝而发生了演变和合并,因此不可能重现初始结果。
许多研究中的另一个普遍存在的缺陷是放射科医生和临床医生缺乏参与。罗伯茨说:“无论您使用机器学习来预测天气还是疾病可能如何发展,确保不同的专家一起工作并说相同的语言非常重要,这样才能着眼于正确的问题。”
尽管他们在COVID-19模型中发现了缺陷,但研究人员表示,通过进行一些关键的修改,机器学习可以成为对抗这种流行病的有力工具。例如,他们告诫不要过分使用公共数据集,否则可能会导致明显的偏差风险。此外,数据集应该是多样的并且大小合适,以使该模型对不同的人口统计群体有用,并且应该对独立的外部数据集进行管理。
除了高质量的数据集外,还要求手稿具有足够的文件可复制和进行外部验证,以增加模型被推广并集成到未来临床试验中以建立独立的技术和临床验证以及成本效益的可能性。