35

别再SOTA了,那叫“微调”!Science发文炮轰论文灌水

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw%3D%3D&%3Bmid=2247544189&%3Bidx=3&%3Bsn=c794d434ce5624c9a872458f1172e113
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

金磊 发自 凹非寺

量子位 报道 | 公众号 QbitAI

AI算法的发展,真有那么迅猛吗?

为了一探究竟,来自MIT的研究人员,便对 81种 AI算法做了横测,结果令人大跌眼镜:

没有明确证据表明,这些算法在10年内,对任务效果有明显改善。

Fj26riV.png!web

针对类似的问题,Science最近也发文表示:

人工智能在某些领域的进步引人注目,但这并不是真正的进步。

qYnieyA.png!web

那么,这到底是怎么一回事?

“是微调,不是核心创新”

MIT研究人员横测的对象,是81种 剪枝算法

这类算法简单来说,就是对神经网络的连接做“修修剪剪”,以此来提高效率。

然而,这种算法的发展现状,正如Science发文作者Matthew Hutson所说:

很多科研工作者就在此之上,做了些许“微调”,然后就宣称自己的算法具有优势。

因此,MIT的研究人员便对这些算法做了 元分析 ,还提出了一种框架—— ShrinkBench ,用来促进剪枝算法的标准化评估。

真正的好算法,需要经得起考验,那么结果又如何呢?

第一轮考验:剪枝 vs 架构

研究人员基于ImageNet,绘制了剪枝后模型的准确率和压缩/加速水平,以及没有做过剪枝、不同架构的相同指标,结果如下图所示。

FzQzyqu.png!web

不难看出,一个给定架构经过剪枝后,可以改善其时间/空间与精度之间的权衡,有时候还可以提高精度。

但剪枝的效果,通常 不如换个架构 效果来得好。

第二轮考验:“同行”算法比较

这一维度的考虑,是因为研究人员发现,许多工作都高举“SOTA”旗帜,然而比较的对象却不全。

很明显的现象就是,缺少与2010年之前提出的算法的比较,甚至都没有跟其它号称SOTA的算法做对比,如下图所示。

bUFz6r2.png!web

第三轮考验:数据集和架构的组合

在81篇论文中,ImageNet和VGG-16的组合最为常见,并且,在前六种最常见的组合中,有三种涉及MNIST。

但MNIST与其它主流图像分类数据集有很大的区别:它的图像是灰度的,大部分是由0组成,用简单的模型进行分类,准确率就可以达到99%以上。

vM3ayin.png!web

第四轮考验:度量指标

还有五花八门的度量指标,啥也不说了,直接上图。

QVr6fqI.png!web

ea2YJz6.png!web

jIJf2iQ.png!web

当然,还有诸如数据预处理、调参策略等一系列问题,都会导致结果的不同。

研究一作Davis Blalock表示:

这些改进都是所谓的“微调”,而不是科研人员声称的“核心创新”,甚至有些改进方法可能根本就不存在。

于是乎,MIT的研究人员便开发了一套 方便开发标准化评价 神经网络的剪枝方法。

NzMjMvZ.png!web

ShrinkBench提供了标准化和可扩展的功能,可以用于训练、剪枝、微调、计算度量和绘图,而且都是使用 标准化的预训练模型和数据集

正如另一位作者John Guttag所说:

如果你不能衡量某种东西,就很难让它往好的方向发展。

好了,现在要是再想在剪枝算法上,稍微搞个小进展就水一篇论文,可能不再那么容易了。

Science发文炮轰水论文

最近,Science也针对“水论文”一事发表文章,认为人工智能领域中的许多分支,其发展都是不稳定的:

  • 2019年,对搜索引擎中使用的信息检索算法进行的一项元分析,得出了一个“高水位线” (high-water mark) ,然而,它早在2009年就有了;

  • 同样是2019年,另外一项研究复现了7个神经网络推荐系统,结果,其中6个系统的表现,还没有多年前开发的更简单的非神经网络算法好;

  • 今年2月,卡内基梅隆大学的计算机科学家Zico Kolter在arXiv发表论文,他发现早期的对抗训练方法PGD,只需要用简单的小技巧增强一下,就能达到目前所谓更新、更复杂方法的效果;

  • 今年3月,康奈尔大学的计算机科学家Kevin Musgrave,在arXiv上发表了一篇论文研究了损失函数,在一项涉及图像检索的任务中,他对其中十几个算法进行了平等的比较,结果发现,与这些科研工作者的说辞恰巧相反,自2006年以来,准确率就没有提高过。

jQRZzuJ.png!web

正如Musgrave表示:

炒作浪潮一直存在。

反观那些经久不衰的算法,像 LSTM ,自1997年被提出后,在语言翻译任务中取得了重大突破。

如果LSTM得到适当的训练,它的性能就能和20年后 (现在) 的算法相当。

类似的还有像2014年提出的 GAN ,大幅提高了生成图像的能力。在2018年的一篇报告称,只要有足够的计算量,原有的GAN方法可以与后来的方法相媲美。

QrAzmin.png!web

对此,Kolter认为,研究人员应当热衷于开创全新的算法,让这个新算法达到SOTA效果,而不是对现有算法做调整。

那么,如今这种论文灌水背后的原因,又是什么呢?

其中一个因素,便是MIT研究人员所指出的 评估标准 问题——数据集不同、调整方法不同、性能指标和基线都不同,这种比较是不可行的。

而另外一个原因,便是 AI领域的爆炸性增长 ,论文数量远超有经验的审稿人数,评审人员应当坚持跟一个合理、科学的基准,做更好的比较。

比论文灌水更可怕的,是造假

以为学术乱象只有这些?

不,还有一股“造假风”。

5月20日,国外网友便曝出了一个学术造假大事件:

8篇文章,不同作者,不同医院,不同癌症种类,不同蛋白表达,愣是完全一样的结果,发了8篇论文。

zmqyuaq.png!web

UAB医学院糖尿病中心博士后研究员、营养学博士,微博网友“晨光us”对此表示:

如此丧心病狂的造假,简直让人看得窒息。

qYNRFfV.png!web

然而,更令人悲哀的是,论文作者全部来自中国……

而且从文章署名来看,从一线医生到主任副主任医师、医院副院长,还有多篇是国家自然科学基金资助。

如此造假,简直不简单。

网友也表示:

突破了我对学术造假的所有认知。

2IBvEzA.png!web

无独有偶,前不久在知乎中还曝出南京邮电大学教授,三年半发表300篇IEEE论文,一时成为热议话题。

其弟子“黄同学”论文造假、冒充北大学生,也一并上了热搜。

……

如此学术乱象,你怎么看?

传送门:

ShrinkBench项目地址:

https://github.com/jjgo/shrinkbench

ShrinkBench论文地址:

https://arxiv.org/abs/2003.03033

参考链接:

https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real

https://weibo.com/roger1130?refer flag=0000015010 &from=feed&loc=nickname&is_hot=1#_rnd1591086111501

https://twitter.com/MicrobiomDigest/status/1266140721716719616

https://www.zhihu.com/question/397548354/answer/1248933002

— 完 —

特惠福利 | 一站式音视频解决方案

想赶上直播电商、在线教育、小程序直播的风口?腾讯云音视频解决方案为您助力!

腾讯云推出9.9元产品体验包,包括云点播、云直播、实时音视频,总有一款适合你。识别二维码即可体验:

fQZJriM.jpg!web

量子位  QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK