近日,有网友在 reddit 上提出 Google AI 拒绝公开 Conceptual Captions 数据集(相关论文发表在 ACL 2018 上),谷歌除了发表相关论文以外还举办了使用该数据集的挑战赛(比赛结果在 2018 年 NeurIPS 会议上公布)。这引发了网友对这种做法是对是错、学术会议同行评审是否应该把论文复现作为重要考量因素等的激烈讨论。
原帖主要内容是:
谷歌曾在 ACL 2018 上发表了一篇数据集论文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》,该数据集 Conceptual Captions 共有大约 330 万张图像。但他发现了几个问题:
谷歌拒绝共享预训练模型,这使得基准测试变得异常艰难:
https://github.com/google-research-datasets/conceptual-captions/issues/3;
拒绝共享与每张图像相关的 Alt 文本(讽刺的是这篇论文的标题中恰好有 Alt-text 一词):
https://github.com/google-research-datasets/conceptual-captions/issues/6;
拒绝共享图像/镜像链接(尽管我认为这关乎法律问题,但仅有该数据集的几百张图像,社区很难对比不同模型):
https://github.com/google-research-datasets/conceptual-captions/issues/1
发帖人表示对此很难过。他希望社区意识到数据集论文是一项重大责任,如果存在阻挡数据集共享的法律问题,那么可以基于私人数据发表论文,但是基于同样的模型或整个数据集举办挑战赛的行为不太好。
此帖发出后,引发了网友的大量讨论。有网友认为谷歌这么做没什么问题,他们的任务是分享研究、把研究成果作为自己的优势,而不是相反。但评论中更多的是对这种行为的反对。
反对此类行为
网友_michaelx99 表示:
DeepMind 发表的好几篇论文也是仅依靠论文本身完全无法复现。这让我意识到发表在 arXiv 或企业网站上的「论文」并不是真正的发表,其主要目标是表明该企业已经具备了某种能力。我并不是说所有大企业在线发表的论文都这样,但其中一些确实如此。
ModernShoe 表示:
我曾听吴恩达谈论商业如何利用 AI 盈利。他说企业应该保护训练/测试数据集,而不是保护某个算法。或许这与数据集论文不公布数据集有某种关系?
网友 epic:
这种行为不利于科学和机器学习的发展。虽然我们理解谷歌不发布数据集的原因,但这种行为仍然是不好的。尤其是数据集论文,在没有数据的情况下复现研究及其困难。有能力的组织和人们应该作为表率来引领社区,而不是相反。
网友 SkinnyJoshPeck:
这是对机器学习和机器学习专家的海量需求的后果吗?我在一家大企业工作,与机器学习科学家接触较多,他们当中一些人缺乏对科学方法的基本尊重,这令我非常惊讶。我认为这并非技巧的缺乏(一些研究已经发表),而是不明白「可观的结果未必是准确、有效的」。
我的大学专业是数学,而且专门学习了代数。我了解表示论和代数几何,因此我知道大多数模型和技术的底层数学基础,这些让我对这些专家能够坐在现在的岗位上感到惊讶。
复现性
网友 GoAwayStupidAI:
复现性是科学的重要标志。没有相关数据、结果无法复现的研究都是垃圾。
网友 kemfic:
论文就应该是可复现的。如果不能,那么期刊就不应该接收它们。
网友 duckbill_principate:
让我觉得困扰的不是共不共享模型、代码或者数据集的问题,而是在这种事情发生的时候论文仍然被接收了。这某种程度上是同行评审的失败,其责任则属于我们每一个审稿人,因为这样的论文往往是基于信任或权威而被接收的(我们知道尽管有双盲评审,但我们不难推断出某些论文一般会来自哪个研究组)。这更像是广告而不是科学。
网友 duckbill_principate:
在我实现的 20 多篇论文中,5 篇存在部分或完全影响研究结果验证的错误/bug。而这些论文都是顶会上经过同行评审的论文。
我认为这是学术丑闻。
有些案例中问题被揪出来,作者进行了修改。但即使是在这种比较好的场景中,修改数字后的论文(可能使用了全新的超参数搜索!)静悄悄地出现在 arXiv 上,而发表在会议上的论文并没有修改,更不会被撤回。为什么?大家都知道原因,也熟悉那些辩护理由:「尽管我们的结果不如预想中的好,但我们认为这项技术非常棒,非常有前途……」不管是从数学角度,还是从没有所谓的「当前最优结果」的论文不该被接收的角度,这种说法都非常糟糕。
网友 habanero_ass_fire 认为:
OpenImages 的图片是从网上获得的,其他几个比较知名的数据集也是如此。就法律意义上来看,图片的作者拥有版权,因此论文作者是不能共享这些图片的。另外,无效的链接在现实中经常发生。因此我对这种没有公开数据集的行为没有意见,只要他们能够分享一个预训练模型即可;如果你可以依照论文训练出自己模型,即使没有预训练模型也不会让论文无效。
但这立刻遭到网友 duckbill_principate 的反驳:
如果你能够训练出一个模型精确复现,那没问题。但如果你曾试图复现论文时就会明白,实际情况往往是,即使那些发布了自己代码且提供定义清晰且可用的数据集的论文,复现的结果也往往是不可预测的。他们是公布了自己的代码和参数,但却可能没有说明自己的训练过程;他们公布了训练代码,但却可能遗漏了部分自定义库;他们使用了公共数据集,但却没有明确说明他们对这些数据集做了什么样的预处理;他们公布了代码、数据集,甚至也对此做了大量且详尽的说明,但却可能遗漏一些非常关键的内容,等等不一而足。
事实是,如果没有预训练模型,或者没有对训练过程的完整描述,谈复现性就是一个笑话。
正如网友所说,在没有数据的情况下复现研究及其困难,尤其是数据集论文。
关于研究复现的讨论由来已久,前段时间在
某篇 CVPR 论文复现出现问题
时,大家更是对顶会/期刊论文复现性进行了大量讨论。不少人认为论文复现也应该作为同行评审中的重要部分。有网友表示「总体而言,论文评审过程不包含复现实验结果。评审者不得不在很大程度上依靠作者的诚信」、「同行评审通常更关心论文中描述的方法。潜在的解决办法是要求作者提交现成的实现(如通过 docker)。然而,在哪里运行仍然是一个问题。也许 AWS 资源等可以从提交费用中提取,供评审人员重新运行模型。然后,问题是确保评审人员不会「滥用」资源进行他们自己的实验等。在任何情况下,「通过计算的方法」进行 DL 论文评审都很棘手」。
学术会议对研究复现也很重视。2017 年,ICML「机器学习复现 Workshop」就对这一问题进行过讨论;2018 年,ICLR 举办了复现挑战赛,旨在保证接收论文公布的结果是可靠的、可复现的。此外,为了鼓励可复现性和高质量论文的提交,ICML 2019 在论文提交上做出了一些重要改变,如鼓励提交的论文附带代码,结果的可复现性和代码的易用性将作为论文接收和进一步决策的考虑因素。KDD 2019 的征稿通知中也表明:今年会议采取双盲评审制度,论文接收结果公布之前投稿者不得将论文发布于 arXiv 等开放性平台上。更重要的是,只有在论文中公开研究代码和数据的论文才有资格竞选「最佳论文奖」。
科学研究的复现性非常重要,机器学习社区一贯重视开放性、复现性,而这需要社区人们的维护。上述学术会议的变化无疑将促进研究复现性,鼓励研究人员更加审慎地对待自己的研究、更加开放地共享研究的具体细节。那么具备强悍研究能力和开发能力的大型企业会不会做好表率呢?
免责声明:本文由用户上传,如有侵权请联系删除!