AI竞赛没有意义模型根本没用冠军全凭运气

AI竞赛没有意义模型根本没用冠军全凭运气
2019-10-12 16:06:18  浏览量:5488   作者:责任编辑NO。郑子龙0371

编者按:本文来自微信大众号“AI前哨”(ID:ai-front),作者Luke Oakden-Rayner,译者 姚佳灵,修改 陈思,36氪经授权发布。

AI 前哨导读:Luke Oakden-Rayner 又来了~ 了解他的读者应该记住,2018 年的时分,他从前写过一篇 《人工智能医疗安全:咱们有麻烦了!》,以此来表达他个人对 AI 医疗安全的忧虑,作为一名放射科医师,他十分重视医疗与核算机科学等未来技能的交汇。

近来,他开端研讨人工智能比赛对实践运用发作的影响,当然仍是在他个人比较了解的医疗范畴,他以为:AI 比赛无法发作有用的模型,乃至不仅仅在医疗范畴。先别急着辩驳或许附和,来品一品 Luke 的这篇文章再做点评也不迟。

今日(9 月 19 日),一个巨大的新 CT 脑部数据集被公布于众,方针是练习模型以检测颅内出血。到目前为止,看起来都不错,虽然我还没有深入研讨细节(而魔鬼常在细节中)。

该数据集被公布于众是为了一场比赛,这显着引发了在推特上一般是友爱的比赛:

当然,这也引来了置疑论者的冷言冷语。

然后,评论持续进行着,评论的规模很广,从“可是,由于有一个留出法(hold out)测验集,怎么会过拟合呢?”到“从未计划直接运用提出的处理方案”(后者是前次比赛的冠军提到的)。

跟着评论的进行,我意识到,虽然咱们“都知道”比赛成果从临床含义上讲对错常可疑的,可是,我从没有真实看到一个令人信服的解说,来解说为什么会这样。

我期望本文能够解说比赛为什么不是真实关于构建有用的 AI 体系。

免责声明: 我写本文的初衷是供我的忠诚读者阅览,他们了解我在一系列问题上的一般态度。可是,它在推特和 HackerNews 上传播得很广,而且,很显着,我没有为许多的陈说供给满足的上下文。我计划写个续篇来弄清几件工作,可是,这儿是对几个常见批判的快速回复:

  • 我不以为 AlexNet 是个比 ResNet 好的模型。这个态度是荒唐的,尤其是考虑到我一切宣布的著作都是运用 resnets 和 densenets,而不是 AlexNets。

  • 我以为,这个误解来自于我没有界说我用到的术语:一个“有用的”模型应该是能够担任它受过练习的使命的模型。它不是模型架构。假如在比赛过程中开发的架构广泛有用,那么,它是一个好的架构,可是,提交给比赛的特定完结纷歧定是有用的模型。

  • 本文中的核算数据是过错的,可是,它们注定在正确方向上出错了。它们的意图是阐明依据人群的过拟合概念,而不是精确性。更好的办法简直都需求在揭露排行榜上没有的信息。我或许在某个时刻点更新这些核算数据,以便让它们更精确,可是,它们永久都不会完美。

  • 我在本文中测验了一些新东西,那是对一个推特评论的回应,因而,我想看看,我是否能在一天内写下来,以使其与时同进。考虑到我一般的流程是,每篇帖子要写上几个星期及屡次重写,这有点冒险。但我以为,这个帖子依然能到达其意图,可是,我个人以为不值得冒险。假如我再花上 1 天或 2 天,那么,我置疑,我会在发布前就了解其间的大部分问题。我供认我错了。

让咱们来干上一仗吧!

那么,什么是医学 AI 范畴中的比赛呢?这儿有几个选项:

  • 让团队测验处理一个临床问题

  • 让团队探究一下怎么处理问题,并测验新颖的处理方案

  • 让团队构建一个在比赛测验集上体现最佳的模型

  • 浪费时刻

现在,我没有那么烦恼,直接跳到终究一个选项(值得花时刻在什么上是个观念问题,而临床功效仅仅一个考虑要素。更多相关内容在本文的终究)。

可是,前面那三个选项呢?这些模型适用于临床使命吗?它们是否带来广泛运用的处理方案和新颖性?或许,它们仅仅比赛中体现超卓,而在实践中体现平平呢?

(剧透:我将评论后者)。

好模型和坏模型

咱们是否应该期望本次比赛会发作好的模型呢?咱们来看看其间一个组织者所说的话。

这很帅。我彻底赞同,缺少大型的、符号杰出的数据集是构建有用临床 AI 的最大妨碍,因而,数据库应该有所协助。

可是,提到这个数据集能够有用和本次比赛将发作好的模型可不是一回事。

因而,为了界说咱们的术语,比如说,一个 好的模型 是能够在不行见数据(该模型不了解的状况下)上检测到脑出血的模型。

因而,反过来说,一个 坏的模型 便是在不行见数据上没有检测到脑出血的模型。

这些界说将不会有争议。Machine Learning 101(以下简称 ML101)。我坚信,比赛组织者赞同这些界说,而且更喜爱参赛者发作好模型而不是坏的模型。事实上,他们现已清晰组织了旨在推行好模型的比赛。

这是不行的。

Epi vs ML,开打!

ML101(现在拟人化了)告知咱们,操控过拟合的办法是运用一个留出法测验集,这是在模型练习过程中没有见过的数据。这模拟了在临床环境中看到新病患的景象。

ML101 还说,留出法的数据只能用于一次测验。假如咱们测验多个模型,那么,就算咱们在开发过程中没有做弊或走漏测验信息,咱们的最佳成果也或许是一个异常值,只比偶尔得到的最坏成果好一点。

因而,现在的比赛组织者供给若干留出法测验集,只让每支参赛团队在这些数据上运转其模型一次。ML101 以为问题处理了。取胜者只测验一次,因而,没有理由以为它们是异常值,他们仅仅有最好的模型。

别急,店员,咱们来看看 Epidemiology 101,它宣称自己有一枚奇特的硬币。

Epi101 告知咱们掷这个硬币 10 次。假如咱们得到正面的次数到达或超越 8 次,那么,就证明这个硬币很奇特(虽然这个断语显着是胡言乱语,可是,咱们仍是能够持续玩,由于咱们知道,10 次中得到 8 次正面相当于关于一个均匀硬币来说 p 值小于 0.05,所以,它一定是合法的)。

在咱们不知道的状况下,Epi101 跟其他 99 个人做了相同的事,一切这些人都以为自己是仅有测验这个硬币的人。那么,咱们该期望发作什么工作呢?

假如这枚硬币彻底正常,一点都不奇特,那么,大约有 5 个人会发现这枚硬币很特别。看起来很显着,可是,请考虑个别的状况。这 5 个人都只进行了一次测验。依据他们的说法,他们有核算学上显着的依据,标明他们具有一枚“奇特的”硬币。

现在假定咱们没有在掷硬币。幻想一下,咱们都在一个比赛测验集上运转一个模型。与其幻想咱们的硬币是否是奇特的,不如期望咱们的模型是最好的,能够为咱们赚到 25000 美元。

当然,咱们只能提交一个模型。不然那将是做弊。模型的其间之一或许体现杰出,相当于抛掷一枚均匀的硬币 10 次而得到 8 次正面朝上的成果,仅仅偶尔算了。

好工作是,规矩不允许提交多个模型,不然其他 99 个参赛者及他们的 99 个模型中的任何一个都能够靠命运得奖了……

多重假定检验

咱们看到的用 Epi101 的硬币测验作用当然适用于咱们的比赛。由于随机的时机,某些百分比的模型会比其他的体现超卓,即便它们都是相同好的。数学不关心测验 100 个模型的是 1 支团队仍是 100 支团队。

即便某些模型在某种含义 ^ 上比其他的好,除非咱们真的以为取胜者具有 ML 巫师(ML-wizard)的共同才能,不然咱们有必要承受至少其他一些参赛者也会取得相似的成果,因而,取胜者仅仅由于命运好才赢的。真实的“最佳体现”将排在后边,或许高于平均水平,但排在取胜者之后 ^^。

Epi101 标明,这种效应称为多重假定检验。假如在一场比赛中,咱们有许多假定,每个参赛者比其他参赛者都好。那么,关于 100 个参赛者来说,就有 100 种假定。

独自来讲,这些假定的其间之一或许标明,咱们有个具有核算学含义的取胜者(p<0.05)。可是,归纳来看,即便取胜者有个核算出来的“取胜”p 值小于 0.05,那也不意味着,咱们只要 5% 的时机来做出不合理的决议。事实上,假如是掷硬币(简略核算,但毫不古怪),咱们能够有个大于 99% 的时机让一个或多个人“取胜”并取得 8 次正面朝上的成果!

这便是 AI 比赛的取胜者,在掷硬币的时分刚好得到了 8 次正面朝上的成果。

风趣的是,虽然 ML101 很清楚,咱们自己运转 100 个模型,并选出最好的,将导致过拟合,他们很少评论这个“过拟合的人群”。很古怪,当咱们考虑到简直一切的 ML 研讨都是用严峻过度测验的揭露数据集完结时……

那么,咱们怎样应对多重假定检验?这都归结到发作问题的根本原因,也即数据。Epi101 告知咱们,任何测验集都是方针人群的一个有误差的版别。在这种状况下,方针人群是“有 CT 脑部图画,具有或不具有颅内出血的一切病患”。咱们来看看这种成见是怎么发作,选用的是一个小型假定人群的小样本:

在这群人中,咱们有很合理的“临床”病例组合。3 例脑内出血(或许与高血压或中风有关),2 例创伤性出血(右侧的是硬膜下出血,左边的是硬膜外出血)。

现在,咱们对这群人取样,构建咱们的测验集:

随机的,终究咱们得到了轴外(在大脑外部)出血。在这个测验集上体现杰出的模型纷歧定在实践病患那里体现杰出。事实上,咱们能够估量,在轴外出血上体现很好的模型以脑内出血为价值而取胜。

可是,Epi101 不仅仅是指出问题,它还有处理方案。

如此强壮

要有一个没有误差的测验集,只要一种办法,便是包含悉数人!然后,无论什么模型,在测验中体现杰出的也将是实践中最好的,由于咱们在一切或许的未来病患身上做了测验(看起来很难)。

这导致了一个十分简略的主意,即跟着测验集变得更大,咱们的测验成果会变得更牢靠。实践上,咱们能够经过指数核算来猜测测验集的牢靠性。

这是指数曲线。假如咱们有个关于咱们的“取胜”模型比次优模型好多少的大约主意,那么,咱们能够估量咱们需求多少测验病例,以便牢靠地标明它更好。

因而,要标明咱们的模型比比赛对手的好 10%,咱们就需求大约 300 个测验病例。咱们还能够看到,跟着模型之间的差异变得越来越小,所需的病例数量怎么呈指数级增加。

让咱们付诸实践吧。假如咱们看下另一个医学 AI 比赛,SIIM-ACR 气胸切割应战赛,咱们能够看到,在排行榜的前几名之间,Dice 得分(规模在 0 到 1 之间)的差异能够忽略不计。请记住,这个比赛用到的数据集有 3200 个病例(这很大方,可是,它们对 Dice 得分的奉献并不平等)。

因而,在前两名之间的差异是 0.0014……让咱们将它放入样本容量核算器中。

好了,为了在这两个成果中显现显着的差异,咱们需求 92 万个病例。

可是,为什么停步于此呢?咱们乃至还没有评论多重假定检验呢。仅在只要一个假定,意味着 只要两个参赛者的状况下,就需求这么荒唐的数量的病例

假如咱们看看排行榜,那里有 351 支参赛团队。规矩标明,他们能够提交两个模型,因而,咱们最好假定至少有 500 个测验模型。这就必定发作异常值,就像 500 个人在那里掷均匀硬币相同。

Epi101 来救场啦。多重假定检验在医学上的确很常见,尤其是在基因组学等“大数据”范畴。咱们现已用了几十年学习怎么处理这些问题。处理这类问题最简略牢靠的办法被称为 Bonferroni 校对 ^^。

Bonferroni 校对特别简略:将 p 值除以测验次数就得到“核算显着性阈值”,该阈值现已针对一切额定的硬币抛掷进行了调整。因而,在这种状况下,咱们核算 0.5/500 的值。新的 p 值方针是 0.0001,任何比这个差的值将被以为是支撑零假定(即比赛对手在测验集上的体现相同超卓)。咱们把这个值放入咱们的指数计数器。

很棒!只提高了一点点……要得到一个有用的成果,需求 260 万个病例:P

现在,你或许会说,我很不公正,在排行榜上的前几名中一定有一些有好模型的小团队,彼此之间没有显着的不同 ^^^。好吧,大方一点。假如我把第 1 名和第 150 名的模型进行比较的话,必定没有人会诉苦,对吧?

依然比咱们具有的数据还要多。事实上,我有必要降低到第 192 名方位,以找到这样一个成果,即样本巨细要满足发作一个“核算学上显着的”差异。

可是,这或许是特定于气胸应战比赛?其他比赛会是什么状况?

在 MURA,有个 207 张 X 光图画的测验集,70 支队伍每个月最多提交 2 个模型,让咱们大方点,就说提交了 100 个模型吧。从数字上看,“排名榜首的”模型只比排名第 56 及以下的模型有显着的差异。

在 RSNA 肺炎检测应战赛 中,有 3000 张测验图画,350 支团队各提交 1 个模型。排名榜首的只与排名第 30 及以下的模型有显着差异。

这真实地形成轩然大波了,医学以外的范畴呢?

当咱们从左到右地细心检查 ImageNet 的成果时,发现每年的改善变慢了(有用的规模减小了),而在数据集上进行测验的人数增加了。我无法真实估算出数字,可是,知道咱们对多重测验的了解后,还有人真的信任 SOTA 赶在 2010 年中期,仅仅众包过拟合吗?

那么,比赛的意图是什么?

显着,他们不能牢靠地找到最佳模型。他们乃至没有真实提醒有用的技能以构建超卓的模型,由于咱们不知道,在上百个模型中,哪个实践上运用了一个杰出、牢靠的办法,哪个形式仅仅刚好合适动力缺乏的测验集。

当咱们和比赛组织者提起的时分……他们大多说,比赛是为了宣扬。我想,这就满足了。

AI 比赛是风趣的,能够建造社区、搜索人才、推行品牌和招引注意力。

可是,AI 比赛无法发作有用的模型

补白:

^ 咱们实践上能够用硬币类比来了解模型的功能。改善模型相当于把硬币弄弯。假如咱们长于把硬币弄弯,那么,这样做会让它更有或许落下来的时分正面朝上,可是,除非是 100% 的或许性,不然,咱们仍是无法确保“赢”。假如咱们有枚正面朝上的概率为 60% 的硬币,而其别人的概率是 50%,那么,从客观上来看,咱们有最好的硬币,可是,在 10 次抛掷中,成果为 8 次正面朝上的概率依然只要 17%。比该范畴中其他模型具有的 5% 要好,可是,请记住,他们有 99 个。他们傍边某个人取得 8 次面朝上的累积时机超越 99%。

^^ 人们总是说,Bonferroni 校对有点保存,可是,请记住,咱们对这些模型之间是否真的不同标明置疑。咱们应该保存一点。

^^^ 请注意,这儿排名榜首的模型取得 3 万美元的奖金,而第二名就什么也得不到。比赛组织者觉得这样区别是合理的。

原文链接:

https://lukeoakdenrayner.wordpress.com/2019/09/19/ai-competitions-dont-produce-useful-models/

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!