即便是在学术领域,劣币驱逐良币也是一个很常见的事情,简单来说就是,大家都发现构造一个模型单元太难了,但是用现有的模型单元去堆叠出一个新的模型结构就简单很多,那既然如此,为何要死磕前者呢。
例如一个商城只有苹果、香蕉、桃子三种水果,现在要贩卖水果拼盘,最具有经济效益,也就是贩卖的最好的拼盘是3苹果2香蕉1桃子,这种组合就是一个模型结构,然后过了一年,有位大老发现,1苹果1香蕉1桃子能产出更高的经济效益,于是,这个模型大受欢迎,这位大老便荣登顶会。
当然,这只是一个很简单的例子,真正的模型构造必定比贩卖水果拼盘要难很多,需要大量数学理论来左证,但本质上其实与水果拼盘没什么不同。
苏飞此前的elmo模型所做的工作本质上也是水果拼盘,只不过他的拼盘领先了一个时代,能超越目前最好的模型10个性能百分点,大大提高了准确率还减少了算力消耗。
但是,如今整个学术界渐渐的,都开始拼水果拼盘,所有人都在现有的苹果、香蕉、桃子里选择,开始自由组合,对不同的任务和实验拼出解决这个问题的最优模型。
而很少有人会去往这个拼盘里创造一个新的水果,毕竟吃力不讨好。
但既然选择了做学术界的清流,苏飞就想要成为创造新水果的人,他想要往这个水果拼盘里引入菠萝,至于为什么称之为菠萝,嗯……因为他最爱吃菠萝。
而他与大多数人写论文的方式相反,对苏飞来说,再难的技术问题都不是问题,他怀疑只要有足够的灵感激发卡,他甚至可以突破号称永远的三十年的“核聚变”技术。
于他而言,最重要的就是idea或者说一个正确的思路。
注意力机制毫无疑问就是一个很好的idea。近年无论图领域还是自然语言处理领域,对注意力机制这块动刀子的人可不少,但至今为止,注意力机制更像是在其他的模型单元上起到一个基础运算,或者说锦上添花的作用。
苏飞不认为注意力机制的作用仅限于此,不止苏飞不这么认为,世界上几乎所有相关领域学者都不认为注意力机制仅限于此,然而令人遗憾的是,还没有人能真正发挥注意力机制的作用。
苏飞在学习《认知神经科学》后,认为这是一个很好的机会。
于是,他把近年的注意力机制相关的论文全部罗列了出来。
【基于注意力机制的端到端机器翻译算法】。
【基于注意力机制的新自适应权重算法】。
【以注意力权重再分配改善注意力机制】。
【目标检测上的注意力机制新型应用】。
…
…
苏飞就这么看了整整一个下午的注意力机制文献,然而,他只想说,还是小看了深度学习领域人们灌水的能力。
他在过目不忘和知识快解的加持下,一下午看了上百篇,其中百分之九十五都没有任何价值,其中有好几篇说是学术垃圾都算抬举他们了。最过分的一些论文是通篇讲解这个模型结构多牛逼多牛逼,最后一看,连个代码库都不上传。
这种做法无疑是此地无银三百两,就是明着告诉别人,我不敢传代码给你复现,怎么滴!
即便是华科院一区和ccf-a类的部分顶刊顶会论文,灌水者也是不少。
对于这种情况,苏飞也是无可奈何,学者也是人,也是有所谓的关系户和各种潜规则的,即便是顶会顶刊也没法保证每一篇都有相应的含金量,一些阿猫阿狗也还真的能上。
看了一个下午的苏飞只得到了七八篇比较有价值的论文。
“算了,急不得,慢慢来吧。”
苏飞深吸了一口气,他现在只想好好洗洗眼,某些论文实在辣他眼睛。