别再SOTA了，那叫“微调”！Science发文炮轰论文灌水

金磊发自凹非寺

量子位报道 | 公众号 QbitAI

AI算法的发展，真有那么迅猛吗？

为了一探究竟，来自MIT的研究人员，便对 81种 AI算法做了横测，结果令人大跌眼镜：

没有明确证据表明，这些算法在10年内，对任务效果有明显改善。

Fj26riV.png!web

针对类似的问题，Science最近也发文表示：

人工智能在某些领域的进步引人注目，但这并不是真正的进步。

qYnieyA.png!web

那么，这到底是怎么一回事？

“是微调，不是核心创新”

MIT研究人员横测的对象，是81种 剪枝算法 。

这类算法简单来说，就是对神经网络的连接做“修修剪剪”，以此来提高效率。

然而，这种算法的发展现状，正如Science发文作者Matthew Hutson所说：

很多科研工作者就在此之上，做了些许“微调”，然后就宣称自己的算法具有优势。

因此，MIT的研究人员便对这些算法做了 元分析 ，还提出了一种框架—— ShrinkBench ，用来促进剪枝算法的标准化评估。

真正的好算法，需要经得起考验，那么结果又如何呢？

第一轮考验：剪枝 vs 架构

研究人员基于ImageNet，绘制了剪枝后模型的准确率和压缩/加速水平，以及没有做过剪枝、不同架构的相同指标，结果如下图所示。

FzQzyqu.png!web

不难看出，一个给定架构经过剪枝后，可以改善其时间/空间与精度之间的权衡，有时候还可以提高精度。

但剪枝的效果，通常 不如换个架构 效果来得好。

第二轮考验：“同行”算法比较

这一维度的考虑，是因为研究人员发现，许多工作都高举“SOTA”旗帜，然而比较的对象却不全。

很明显的现象就是，缺少与2010年之前提出的算法的比较，甚至都没有跟其它号称SOTA的算法做对比，如下图所示。

bUFz6r2.png!web

第三轮考验：数据集和架构的组合

在81篇论文中，ImageNet和VGG-16的组合最为常见，并且，在前六种最常见的组合中，有三种涉及MNIST。

但MNIST与其它主流图像分类数据集有很大的区别：它的图像是灰度的，大部分是由0组成，用简单的模型进行分类，准确率就可以达到99%以上。

vM3ayin.png!web

第四轮考验：度量指标

还有五花八门的度量指标，啥也不说了，直接上图。

QVr6fqI.png!web

ea2YJz6.png!web

jIJf2iQ.png!web

当然，还有诸如数据预处理、调参策略等一系列问题，都会导致结果的不同。

研究一作Davis Blalock表示：

这些改进都是所谓的“微调”，而不是科研人员声称的“核心创新”，甚至有些改进方法可能根本就不存在。

于是乎，MIT的研究人员便开发了一套 方便开发 、 标准化评价 神经网络的剪枝方法。

NzMjMvZ.png!web

ShrinkBench提供了标准化和可扩展的功能，可以用于训练、剪枝、微调、计算度量和绘图，而且都是使用 标准化的预训练模型和数据集 。

正如另一位作者John Guttag所说：

如果你不能衡量某种东西，就很难让它往好的方向发展。

好了，现在要是再想在剪枝算法上，稍微搞个小进展就水一篇论文，可能不再那么容易了。

Science发文炮轰水论文

最近，Science也针对“水论文”一事发表文章，认为人工智能领域中的许多分支，其发展都是不稳定的：

2019年，对搜索引擎中使用的信息检索算法进行的一项元分析，得出了一个“高水位线” (high-water mark) ，然而，它早在2009年就有了；
同样是2019年，另外一项研究复现了7个神经网络推荐系统，结果，其中6个系统的表现，还没有多年前开发的更简单的非神经网络算法好；
今年2月，卡内基梅隆大学的计算机科学家Zico Kolter在arXiv发表论文，他发现早期的对抗训练方法PGD，只需要用简单的小技巧增强一下，就能达到目前所谓更新、更复杂方法的效果；
今年3月，康奈尔大学的计算机科学家Kevin Musgrave，在arXiv上发表了一篇论文研究了损失函数，在一项涉及图像检索的任务中，他对其中十几个算法进行了平等的比较，结果发现，与这些科研工作者的说辞恰巧相反，自2006年以来，准确率就没有提高过。

jQRZzuJ.png!web

正如Musgrave表示：

炒作浪潮一直存在。

反观那些经久不衰的算法，像 LSTM ，自1997年被提出后，在语言翻译任务中取得了重大突破。

如果LSTM得到适当的训练，它的性能就能和20年后 (现在) 的算法相当。

类似的还有像2014年提出的 GAN ，大幅提高了生成图像的能力。在2018年的一篇报告称，只要有足够的计算量，原有的GAN方法可以与后来的方法相媲美。

QrAzmin.png!web

对此，Kolter认为，研究人员应当热衷于开创全新的算法，让这个新算法达到SOTA效果，而不是对现有算法做调整。

那么，如今这种论文灌水背后的原因，又是什么呢？

其中一个因素，便是MIT研究人员所指出的 评估标准 问题——数据集不同、调整方法不同、性能指标和基线都不同，这种比较是不可行的。

而另外一个原因，便是 AI领域的爆炸性增长 ，论文数量远超有经验的审稿人数，评审人员应当坚持跟一个合理、科学的基准，做更好的比较。

比论文灌水更可怕的，是造假

以为学术乱象只有这些？

不，还有一股“造假风”。

5月20日，国外网友便曝出了一个学术造假大事件：

8篇文章，不同作者，不同医院，不同癌症种类，不同蛋白表达，愣是完全一样的结果，发了8篇论文。

zmqyuaq.png!web

UAB医学院糖尿病中心博士后研究员、营养学博士，微博网友“晨光us”对此表示：

如此丧心病狂的造假，简直让人看得窒息。

qYNRFfV.png!web

然而，更令人悲哀的是，论文作者全部来自中国……

而且从文章署名来看，从一线医生到主任副主任医师、医院副院长，还有多篇是国家自然科学基金资助。

如此造假，简直不简单。

网友也表示：

突破了我对学术造假的所有认知。

2IBvEzA.png!web

无独有偶，前不久在知乎中还曝出南京邮电大学教授，三年半发表300篇IEEE论文，一时成为热议话题。

其弟子“黄同学”论文造假、冒充北大学生，也一并上了热搜。

……

如此学术乱象，你怎么看？

传送门：

ShrinkBench项目地址：

https://github.com/jjgo/shrinkbench

ShrinkBench论文地址：

https://arxiv.org/abs/2003.03033

参考链接：

https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real

https://weibo.com/roger1130?refer flag=0000015010 &from=feed&loc=nickname&is_hot=1#_rnd1591086111501

https://twitter.com/MicrobiomDigest/status/1266140721716719616

https://www.zhihu.com/question/397548354/answer/1248933002

— 完 —

特惠福利 | 一站式音视频解决方案

想赶上直播电商、在线教育、小程序直播的风口？腾讯云音视频解决方案为您助力!

腾讯云推出9.9元产品体验包，包括云点播、云直播、实时音视频，总有一款适合你。识别二维码即可体验：

fQZJriM.jpg!web

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

“是微调，不是核心创新”

第一轮考验：剪枝 vs 架构

第二轮考验：“同行”算法比较

第三轮考验：数据集和架构的组合

第四轮考验：度量指标

Science发文炮轰水论文

比论文灌水更可怕的，是造假

— 完 —

特惠福利 | 一站式音视频解决方案

Recommend

ETH开始了今年的第二轮大涨，能带来大家期待已久的牛市吗？

携程闯入VC圈：悄悄成立一家创投公司

周涛出任拼多多“明星推荐官” 618直播带货1999元iPhone 11等尖货

QStringView Diaries: Zero-Allocation String Splitting

7年烧钱150亿，马云增持能让百世快递翻盘吗？

前央视主播郎永淳加入到家集团任首席公共事务官

平时经常使用 vim 的兄弟姐妹们，你们用什么键当 leader？

天降横财，为什么要在一线城市买房？

R7000 还是继续等新 y9000x

显示器一直插着充电好吗？

About Joyk