中国科技快讯网 > 快讯 > AI竞赛没有意义模型根本没用冠军全凭运气

AI竞赛没有意义模型根本没用冠军全凭运气

2019-10-12 16:06:18 浏览量：5488 作者：责任编辑NO。郑子龙0371

编者按：本文来自微信大众号“AI前哨”（ID：ai-front），作者Luke Oakden-Rayner，译者姚佳灵，修改陈思，36氪经授权发布。

AI 前哨导读：Luke Oakden-Rayner 又来了~ 了解他的读者应该记住，2018 年的时分，他从前写过一篇《人工智能医疗安全：咱们有麻烦了！》，以此来表达他个人对 AI 医疗安全的忧虑，作为一名放射科医师，他十分重视医疗与核算机科学等未来技能的交汇。
近来，他开端研讨人工智能比赛对实践运用发作的影响，当然仍是在他个人比较了解的医疗范畴，他以为：AI 比赛无法发作有用的模型，乃至不仅仅在医疗范畴。先别急着辩驳或许附和，来品一品 Luke 的这篇文章再做点评也不迟。

今日（9 月 19 日），一个巨大的新 CT 脑部数据集被公布于众，方针是练习模型以检测颅内出血。到目前为止，看起来都不错，虽然我还没有深入研讨细节（而魔鬼常在细节中）。

该数据集被公布于众是为了一场比赛，这显着引发了在推特上一般是友爱的比赛：

当然，这也引来了置疑论者的冷言冷语。

然后，评论持续进行着，评论的规模很广，从“可是，由于有一个留出法（hold out）测验集，怎么会过拟合呢？”到“从未计划直接运用提出的处理方案”（后者是前次比赛的冠军提到的）。

跟着评论的进行，我意识到，虽然咱们“都知道”比赛成果从临床含义上讲对错常可疑的，可是，我从没有真实看到一个令人信服的解说，来解说为什么会这样。

我期望本文能够解说比赛为什么不是真实关于构建有用的 AI 体系。

免责声明： 我写本文的初衷是供我的忠诚读者阅览，他们了解我在一系列问题上的一般态度。可是，它在推特和 HackerNews 上传播得很广，而且，很显着，我没有为许多的陈说供给满足的上下文。我计划写个续篇来弄清几件工作，可是，这儿是对几个常见批判的快速回复：

我不以为 AlexNet 是个比 ResNet 好的模型。这个态度是荒唐的，尤其是考虑到我一切宣布的著作都是运用 resnets 和 densenets，而不是 AlexNets。
我以为，这个误解来自于我没有界说我用到的术语：一个“有用的”模型应该是能够担任它受过练习的使命的模型。它不是模型架构。假如在比赛过程中开发的架构广泛有用，那么，它是一个好的架构，可是，提交给比赛的特定完结纷歧定是有用的模型。
本文中的核算数据是过错的，可是，它们注定在正确方向上出错了。它们的意图是阐明依据人群的过拟合概念，而不是精确性。更好的办法简直都需求在揭露排行榜上没有的信息。我或许在某个时刻点更新这些核算数据，以便让它们更精确，可是，它们永久都不会完美。
我在本文中测验了一些新东西，那是对一个推特评论的回应，因而，我想看看，我是否能在一天内写下来，以使其与时同进。考虑到我一般的流程是，每篇帖子要写上几个星期及屡次重写，这有点冒险。但我以为，这个帖子依然能到达其意图，可是，我个人以为不值得冒险。假如我再花上 1 天或 2 天，那么，我置疑，我会在发布前就了解其间的大部分问题。我供认我错了。

让咱们来干上一仗吧！

那么，什么是医学 AI 范畴中的比赛呢？这儿有几个选项：

让团队测验处理一个临床问题
让团队探究一下怎么处理问题，并测验新颖的处理方案
让团队构建一个在比赛测验集上体现最佳的模型
浪费时刻

现在，我没有那么烦恼，直接跳到终究一个选项（值得花时刻在什么上是个观念问题，而临床功效仅仅一个考虑要素。更多相关内容在本文的终究）。

可是，前面那三个选项呢？这些模型适用于临床使命吗？它们是否带来广泛运用的处理方案和新颖性？或许，它们仅仅比赛中体现超卓，而在实践中体现平平呢？

（剧透：我将评论后者）。

好模型和坏模型

咱们是否应该期望本次比赛会发作好的模型呢？咱们来看看其间一个组织者所说的话。

这很帅。我彻底赞同，缺少大型的、符号杰出的数据集是构建有用临床 AI 的最大妨碍，因而，数据库应该有所协助。

可是，提到这个数据集能够有用和本次比赛将发作好的模型可不是一回事。

因而，为了界说咱们的术语，比如说，一个 好的模型 是能够在不行见数据（该模型不了解的状况下）上检测到脑出血的模型。

因而，反过来说，一个 坏的模型 便是在不行见数据上没有检测到脑出血的模型。

这些界说将不会有争议。Machine Learning 101（以下简称 ML101）。我坚信，比赛组织者赞同这些界说，而且更喜爱参赛者发作好模型而不是坏的模型。事实上，他们现已清晰组织了旨在推行好模型的比赛。

这是不行的。

Epi vs ML，开打！

ML101（现在拟人化了）告知咱们，操控过拟合的办法是运用一个留出法测验集，这是在模型练习过程中没有见过的数据。这模拟了在临床环境中看到新病患的景象。

ML101 还说，留出法的数据只能用于一次测验。假如咱们测验多个模型，那么，就算咱们在开发过程中没有做弊或走漏测验信息，咱们的最佳成果也或许是一个异常值，只比偶尔得到的最坏成果好一点。

因而，现在的比赛组织者供给若干留出法测验集，只让每支参赛团队在这些数据上运转其模型一次。ML101 以为问题处理了。取胜者只测验一次，因而，没有理由以为它们是异常值，他们仅仅有最好的模型。

别急，店员，咱们来看看 Epidemiology 101，它宣称自己有一枚奇特的硬币。

Epi101 告知咱们掷这个硬币 10 次。假如咱们得到正面的次数到达或超越 8 次，那么，就证明这个硬币很奇特（虽然这个断语显着是胡言乱语，可是，咱们仍是能够持续玩，由于咱们知道，10 次中得到 8 次正面相当于关于一个均匀硬币来说 p 值小于 0.05，所以，它一定是合法的）。

在咱们不知道的状况下，Epi101 跟其他 99 个人做了相同的事，一切这些人都以为自己是仅有测验这个硬币的人。那么，咱们该期望发作什么工作呢？

假如这枚硬币彻底正常，一点都不奇特，那么，大约有 5 个人会发现这枚硬币很特别。看起来很显着，可是，请考虑个别的状况。这 5 个人都只进行了一次测验。依据他们的说法，他们有核算学上显着的依据，标明他们具有一枚“奇特的”硬币。

现在假定咱们没有在掷硬币。幻想一下，咱们都在一个比赛测验集上运转一个模型。与其幻想咱们的硬币是否是奇特的，不如期望咱们的模型是最好的，能够为咱们赚到 25000 美元。

当然，咱们只能提交一个模型。不然那将是做弊。模型的其间之一或许体现杰出，相当于抛掷一枚均匀的硬币 10 次而得到 8 次正面朝上的成果，仅仅偶尔算了。

好工作是，规矩不允许提交多个模型，不然其他 99 个参赛者及他们的 99 个模型中的任何一个都能够靠命运得奖了……

多重假定检验

咱们看到的用 Epi101 的硬币测验作用当然适用于咱们的比赛。由于随机的时机，某些百分比的模型会比其他的体现超卓，即便它们都是相同好的。数学不关心测验 100 个模型的是 1 支团队仍是 100 支团队。

即便某些模型在某种含义 ^ 上比其他的好，除非咱们真的以为取胜者具有 ML 巫师（ML-wizard）的共同才能，不然咱们有必要承受至少其他一些参赛者也会取得相似的成果，因而，取胜者仅仅由于命运好才赢的。真实的“最佳体现”将排在后边，或许高于平均水平，但排在取胜者之后 ^^。

Epi101 标明，这种效应称为多重假定检验。假如在一场比赛中，咱们有许多假定，每个参赛者比其他参赛者都好。那么，关于 100 个参赛者来说，就有 100 种假定。

独自来讲，这些假定的其间之一或许标明，咱们有个具有核算学含义的取胜者（p<0.05）。可是，归纳来看，即便取胜者有个核算出来的“取胜”p 值小于 0.05，那也不意味着，咱们只要 5% 的时机来做出不合理的决议。事实上，假如是掷硬币（简略核算，但毫不古怪），咱们能够有个大于 99% 的时机让一个或多个人“取胜”并取得 8 次正面朝上的成果！

这便是 AI 比赛的取胜者，在掷硬币的时分刚好得到了 8 次正面朝上的成果。

风趣的是，虽然 ML101 很清楚，咱们自己运转 100 个模型，并选出最好的，将导致过拟合，他们很少评论这个“过拟合的人群”。很古怪，当咱们考虑到简直一切的 ML 研讨都是用严峻过度测验的揭露数据集完结时……

那么，咱们怎样应对多重假定检验？这都归结到发作问题的根本原因，也即数据。Epi101 告知咱们，任何测验集都是方针人群的一个有误差的版别。在这种状况下，方针人群是“有 CT 脑部图画，具有或不具有颅内出血的一切病患”。咱们来看看这种成见是怎么发作，选用的是一个小型假定人群的小样本：

在这群人中，咱们有很合理的“临床”病例组合。3 例脑内出血（或许与高血压或中风有关），2 例创伤性出血（右侧的是硬膜下出血，左边的是硬膜外出血）。

现在，咱们对这群人取样，构建咱们的测验集：

随机的，终究咱们得到了轴外（在大脑外部）出血。在这个测验集上体现杰出的模型纷歧定在实践病患那里体现杰出。事实上，咱们能够估量，在轴外出血上体现很好的模型以脑内出血为价值而取胜。

可是，Epi101 不仅仅是指出问题，它还有处理方案。

如此强壮

要有一个没有误差的测验集，只要一种办法，便是包含悉数人！然后，无论什么模型，在测验中体现杰出的也将是实践中最好的，由于咱们在一切或许的未来病患身上做了测验（看起来很难）。

这导致了一个十分简略的主意，即跟着测验集变得更大，咱们的测验成果会变得更牢靠。实践上，咱们能够经过指数核算来猜测测验集的牢靠性。

这是指数曲线。假如咱们有个关于咱们的“取胜”模型比次优模型好多少的大约主意，那么，咱们能够估量咱们需求多少测验病例，以便牢靠地标明它更好。

因而，要标明咱们的模型比比赛对手的好 10%，咱们就需求大约 300 个测验病例。咱们还能够看到，跟着模型之间的差异变得越来越小，所需的病例数量怎么呈指数级增加。

让咱们付诸实践吧。假如咱们看下另一个医学 AI 比赛，SIIM-ACR 气胸切割应战赛，咱们能够看到，在排行榜的前几名之间，Dice 得分（规模在 0 到 1 之间）的差异能够忽略不计。请记住，这个比赛用到的数据集有 3200 个病例（这很大方，可是，它们对 Dice 得分的奉献并不平等）。

因而，在前两名之间的差异是 0.0014……让咱们将它放入样本容量核算器中。

好了，为了在这两个成果中显现显着的差异，咱们需求 92 万个病例。

可是，为什么停步于此呢？咱们乃至还没有评论多重假定检验呢。仅在只要一个假定，意味着 只要两个参赛者的状况下，就需求这么荒唐的数量的病例。

假如咱们看看排行榜，那里有 351 支参赛团队。规矩标明，他们能够提交两个模型，因而，咱们最好假定至少有 500 个测验模型。这就必定发作异常值，就像 500 个人在那里掷均匀硬币相同。

Epi101 来救场啦。多重假定检验在医学上的确很常见，尤其是在基因组学等“大数据”范畴。咱们现已用了几十年学习怎么处理这些问题。处理这类问题最简略牢靠的办法被称为 Bonferroni 校对 ^^。

Bonferroni 校对特别简略：将 p 值除以测验次数就得到“核算显着性阈值”，该阈值现已针对一切额定的硬币抛掷进行了调整。因而，在这种状况下，咱们核算 0.5/500 的值。新的 p 值方针是 0.0001，任何比这个差的值将被以为是支撑零假定（即比赛对手在测验集上的体现相同超卓）。咱们把这个值放入咱们的指数计数器。

很棒！只提高了一点点……要得到一个有用的成果，需求 260 万个病例:P

现在，你或许会说，我很不公正，在排行榜上的前几名中一定有一些有好模型的小团队，彼此之间没有显着的不同 ^^^。好吧，大方一点。假如我把第 1 名和第 150 名的模型进行比较的话，必定没有人会诉苦，对吧？

依然比咱们具有的数据还要多。事实上，我有必要降低到第 192 名方位，以找到这样一个成果，即样本巨细要满足发作一个“核算学上显着的”差异。

可是，这或许是特定于气胸应战比赛？其他比赛会是什么状况？

在 MURA，有个 207 张 X 光图画的测验集，70 支队伍每个月最多提交 2 个模型，让咱们大方点，就说提交了 100 个模型吧。从数字上看，“排名榜首的”模型只比排名第 56 及以下的模型有显着的差异。

在 RSNA 肺炎检测应战赛中，有 3000 张测验图画，350 支团队各提交 1 个模型。排名榜首的只与排名第 30 及以下的模型有显着差异。

这真实地形成轩然大波了，医学以外的范畴呢？

当咱们从左到右地细心检查 ImageNet 的成果时，发现每年的改善变慢了（有用的规模减小了），而在数据集上进行测验的人数增加了。我无法真实估算出数字，可是，知道咱们对多重测验的了解后，还有人真的信任 SOTA 赶在 2010 年中期，仅仅众包过拟合吗？

那么，比赛的意图是什么？

显着，他们不能牢靠地找到最佳模型。他们乃至没有真实提醒有用的技能以构建超卓的模型，由于咱们不知道，在上百个模型中，哪个实践上运用了一个杰出、牢靠的办法，哪个形式仅仅刚好合适动力缺乏的测验集。

当咱们和比赛组织者提起的时分……他们大多说，比赛是为了宣扬。我想，这就满足了。

AI 比赛是风趣的，能够建造社区、搜索人才、推行品牌和招引注意力。

可是，AI 比赛无法发作有用的模型。

补白：

^ 咱们实践上能够用硬币类比来了解模型的功能。改善模型相当于把硬币弄弯。假如咱们长于把硬币弄弯，那么，这样做会让它更有或许落下来的时分正面朝上，可是，除非是 100% 的或许性，不然，咱们仍是无法确保“赢”。假如咱们有枚正面朝上的概率为 60% 的硬币，而其别人的概率是 50%，那么，从客观上来看，咱们有最好的硬币，可是，在 10 次抛掷中，成果为 8 次正面朝上的概率依然只要 17%。比该范畴中其他模型具有的 5% 要好，可是，请记住，他们有 99 个。他们傍边某个人取得 8 次面朝上的累积时机超越 99%。

^^ 人们总是说，Bonferroni 校对有点保存，可是，请记住，咱们对这些模型之间是否真的不同标明置疑。咱们应该保存一点。

^^^ 请注意，这儿排名榜首的模型取得 3 万美元的奖金，而第二名就什么也得不到。比赛组织者觉得这样区别是合理的。

原文链接：

https://lukeoakdenrayner.wordpress.com/2019/09/19/ai-competitions-dont-produce-useful-models/

上一篇：电影最好的我们将观众

下一篇：牛皮癣般的电视开机广

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

AI竞赛没有意义模型根本没用冠军全凭运气

好模型和坏模型

Epi vs ML，开打！

多重假定检验

如此强壮

那么，比赛的意图是什么？

“DR购买记录可删”被证实是谣言，传谣者公开道歉

性价比提升15%，阿里云发布第八代企业级计算实例g8a和性能增强型

Sensing Space感知空间之美 ——博德宝上海品牌体验中心设计主

1月上线!揭秘《航海王启航》X《航海王:红发歌姬》联动内容

高通总法律顾问卓安琳：持续创新开放合作，助力中国伙伴在5G时代

AI竞赛没有意义模型根本没用冠军全凭运气

好模型和坏模型

Epi vs ML，开打！

多重假定检验

如此强壮

那么，比赛的意图是什么？

“DR购买记录可删”被证实是谣言，传谣者公开道歉

性价比提升15%，阿里云发布第八代企业级计算实例g8a和性能增强型

Sensing Space感知空间之美 ——博德宝上海品牌体验中心设计主

1月上线!揭秘《航海王 启航》X《航海王:红发歌姬》联动内容

高通总法律顾问卓安琳：持续创新开放合作，助力中国伙伴在5G时代

1月上线!揭秘《航海王启航》X《航海王:红发歌姬》联动内容