【学术相关】为什么很多国内学者的AI的论文复现不了?
一、数据关系吴恩达老师曾经说过,看一篇论文的关键,是复现作者的算法。
然而,很多论文根本就复现不了,这是为什么呢?
因为作者使用的数据比较私密,一般人拿不到,这种情况下,即使作者提供了源代码,但是读者却拿不到数据,也就没法复现算法。
这种情况在国内学术界很普遍,数据别人没有,这就好像一位奥数老师,自己出了一道奥数题,自己解答出来,然后把解题过程写了论文,这类论文往往说服力不够,故事性不够强。
二、硬件原因深度学习的很多算法,是靠大力出奇迹的方法做出来的。比如谷歌、facebook的一些算法,依靠强大的硬件训练出来。
普通研究者没有那么强大的硬件资源,估计达不到他们的1%的算力,根本无法复现算法。
三、数据划分和训练方式有些论文公开了代码,也公开了数据,但是论文里没有提到数据划分问题,数据如果比较少的话,不同的划分会导致结果不同。
四、众所周知的原因这个原因大家心知肚明,我就不说太明白了,这个情况出现在很多国内作者的论文里。这个在公开数据上比较少见。
很多国内的学者发的论文,通常的套路是:
1. 定义一个很新但是意义不大的问题;
2. 面向github编程;
3. 网络中加一些attention,module,normalization,loss,加到不会崩为止;
4. 编故事,写小说,看上去逻辑挺清晰的,但是不给别人复现的机会。
理想的论文什么样?1.效果可以复现,论文里每一个实验逻辑都很通畅,论文所有实验形成的逻辑链完备,使用公开数据集,效果和论文基本一致。
能够达到这种的一般是领域内的大佬,比如陈天奇、何恺明。
2.使用公开数据,公开代码,论文细节清楚,能复现论文的效果。尽管很多论文的作者也不能说明为什么这么设计的网络效果好,这个应该是深度学习可解释性差的原因。因为他们公开了代码,在公开数据集上效果好,能复现效果,所以也是好论文。
文末推荐最后,推荐一个网站:paperswithcode.com/,很多优秀论文的代码都能找到。
往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑AI基础下载机器学习交流qq群955171419,加入微信群请扫码:
相关阅读
-
世界热推荐:今晚7:00直播丨下一个突破...
今晚19:00,Cocos视频号直播马上点击【预约】啦↓↓↓在运营了三年... -
NFT周刊|Magic Eden宣布支持Polygon网...
Block-986在NFT这样的市场,每周都会有相当多项目起起伏伏。在过去... -
环球今亮点!头条观察 | DeFi的兴衰与...
在比特币得到机构关注之后,许多财务专家预测世界将因为加密货币的... -
重新审视合作,体育Crypto的可靠关系才能双赢
Block-987即使在体育Crypto领域,人们的目光仍然集中在FTX上。随着... -
简讯:前端单元测试,更进一步
前端测试@2022如果从2014年Jest的第一个版本发布开始计算,前端开发... -
焦点热讯:刘强东这波操作秀
近日,刘强东发布京东全员信,信中提到:自2023年1月1日起,逐步为...