深度学习近十年的汇总
深度学习
- 近10年发展路程
- 2011年-激活函数ReLU
- 2012年-AlexNet
- 2013年-word2vec
- 2014年-GAN, Adam, Attention
- 2015年-ResNet
- 2016年-AlphaGo
- 2017年-Transform
- 2018年-预训练模型
- 2019年-原理改进
- 2020年-框架爆发
- 2021年-数字孪生
- 2022年-生成式AI
- 2023年-Chatgpt
近10年发展路程
2011年-激活函数ReLU
《Deep Sparse Rectifier Neural Networks(ReLU)》(被引:)
论文链接:https://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf
早期的神经网络大多使用 sigmoid 激活函数。虽然它具有很好的效果,但是,随着层数的增加,这种激活函数使得梯度很容易出现衰减。在 2011 年的这篇论文中,ReLU 被正式提出。它能够帮助解决梯度消失的问题,为神经网络增加深度铺路。
当然,ReLU 也有一些缺点。在函数为 0 的时候不可微,而神经元可能会死亡。在 2011 年之后,很多针对 ReLU 的改进也被提了出来, 以下是相关论文:
- 《Rectifier Nonlinearities Improve Neural Network Acoustic Models(Leaky ReLU)》
- 《Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)》
- 《Self-Normalizing Neural Networks(SELUs)》
- 《Gaussian Error Linear Units (GELUs)》
2012年-AlexNet
《ImageNet Classification with Deep Convolutional Neural Networks(AlexNet)》(被引:)
论文链接:
AlexNet 经常被认为是这一波人工智能浪潮的起点,该网络在 ImageNet 挑战赛中的错误率与前一届冠军相比减小了 10% 以上,比亚军高出 10.8 个百分点。AlexNet 是由多伦多大学 SuperVision 组设计的,由 Alex Krizhevsky, Geoffrey Hinton 和 Ilya Sutskever 组成。
AlexNet 是一个 8 层的卷积神经网络,使用 ReLU 激活函数,总共有 6 千万参数量。AlexNet 的最大贡献在于证明了深度学习的能力。它也是第一个使用并行计算和 GPU 进行加速的网络。
在 ImageNet 上,AlexNet 取得了很好的表现。它将识别错误率从 26.2% 降到了 15.3%。显著的性能提升吸引了业界关注深度学习,使得 AlexNet 成为了现在这一领域引用最多的论文。
2013年-word2vec
《Distributed Representations of Words and Phrases and their Compositionality(word2vec)》(被引:)
论文链接:https://proceedings.neurips.cc/paper_files/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf
Word2vec 是由谷歌研究团队里 Thomas Mikolov 等人提出的模型,该模型能从非常大的数据集中计算出用以表示词的连续型向量。word2vec 成为了 NLP 领域的深度学习主要的文本编码方式。它基于在相同语境中同时出现词具有相似含义的思路,使文本可以被嵌入为向量,并用于其他下游任务。
DeepMind 在这一年提出的用 DQN 玩雅达利游戏开启了深度强化学习研究的大门。强化学习过去大多数情况下用在低维环境中,很难在更复杂的环境中使用。雅达利游戏是第一个强化学习在高维环境中的应用。这一研究提出了 Deep Q-learning 算法,使用了一个基于价值的奖励函数。
2014年-GAN, Adam, Attention
《Generative Adversarial Networks》(被引:)
论文链接:
生成对抗网络(Generative Adversarial Network,简称 GAN)是 Ian Goodefellow 等人提出的非监督式学习方法,通过让两个神经网络相互博弈的方式进行学习。自 2014 年 GAN 网络提出以来,其在 Computer Vision(计算机视觉)等领域获得了广泛的关注
生成对抗网络(GAN)的成功在于它能够生成逼真图片。这一网络通过使用生成器和判别器之间的最小最大(minimax)博弈,GAN 能够建模高纬度、复杂的数据分布。在 GAN 中,生成器用于生成假的样本,而判别器进行判断(是否为生成数据)。
《Adam: A Method for Stochastic Optimization》(被引:)
论文链接:https://arxiv.org/abs/1412.6980
Adam 由于其易微调的特性而被广泛使用。它基于对每个参数的不同学习率进行适应这种思想。虽然近来有对 Adam 性能提出质疑的论文出现,但它依然是深度学习中最受欢迎的目标函数。
2015年-ResNet
《Deep Residual Learning for Image Recognition》(被引:)
论文链接:https://arxiv.org/abs/1512.03385
从 ResNet 开始,神经网络在视觉分类任务上的性能第一次超越了人类。这一方法赢得了 ImageNet 2015、以及 COCO 竞赛的冠军,也获得了 CVPR2016 的最佳论文奖:该研究的作者是何恺明、张祥雨、任少卿和孙剑。
最初 ResNet 的设计是用来处理深层 CNN 结构中梯度消失和梯度爆炸的问题,如今 Residual Block 已经成为了几乎所有 CNN 结构中的基本构造。
这个想法很简单:将输入(input)从卷积层的每个块添加到输出(output)。残差网络之后的启示是,神经网络不应分解为更多的层数,在最不理想的情况下,其他层可以简单设置为恒等映射(identity mapping)。但在实际情况中,更深层的网络常常在训练上遇到困难。残差网络让每一层更容易学习恒等映射,并且还减少了梯度消失的问题。
尽管并不复杂,但残差网络很大程度上优于常规的 CNN 架构,尤其在应用于更深层的网络上时。
2016年-AlphaGo
《Mastering the game of Go with deep neural networks and tree search》(Nature,被引:)
论文链接:https://www.nature.com/articles/nature16961
很多人对于现代 AI 的理解始于 DeepMind 的围棋程序 AlphaGo。AlphaGo 研究项目始于 2014 年,目的是为了测试一个使用深度学习的神经网络如何在 Go 上竞争。
AlphaGo 比以前的 Go 程序有了显着的改进,在与其他可用围棋程序(包括 Crazy Stone 和 Zen)的 500 场比赛中,在单台计算机上运行的 AlphaGo 赢得了除一个之外的所有胜利,而运行在多台计算机上的 AlphaGo 赢得了与其他 Go 程序对战的所有 500 场比赛,在与单台计算机上运行的 AlphaGo 比赛中赢下了 77%的对阵。2015 年 10 月的分布式版本使用了 1,202 个 CPU 和 176 个 GPU,当时它以 5: 0 的比分击败了欧洲围棋冠军樊麾(职业 2 段选手),轰动一时。
这是计算机围棋程序第一次在全局棋盘(19 × 19)且无让子的情况下击败了人类职业棋手。2016 年 3 月,通过自我对弈进行练习的加强版 AlphaGo 在比赛中以 4: 1 击败了世界围棋冠军李世石,成为第一个在无让子情况下击败围棋职业九段棋手的计算机程序,载入史册。赛后,AlphaGo 被韩国棋院授予名誉职业九段的称号。
2017年-Transform
《Attention Is All You Need》(被引:)
论文链接:https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
著名的 Transformer 架构出现了。2017 年 6 月,谷歌宣布又在机器翻译上更进了一步,实现了完全基于 attention 的 Transformer 机器翻译网络架构,并且还在 WMT 2014 的多种语言对的翻译任务上超越了之前 Facebook 的成绩,实现了新的最佳水平。
在编码器-解码器配置中,显性序列显性转导模型(dominant sequence transduction model)基于复杂的 RNN 或 CNN。表现最佳的模型也需通过注意力机制(attention mechanism)连接编码器和解码器。
谷歌提出了一种新型的简单网络架构——Transformer,它完全基于注意力机制,彻底放弃了循环和卷积。两项机器翻译任务的实验表明,这些模型的翻译质量更优,同时更并行,所需训练时间也大大减少。新的模型在 WMT 2014 英语转德语的翻译任务中取得了 BLEU 得分 28.4 的成绩,领先当前现有的最佳结果(包括集成模型)超过 2 个 BLEU 分值。在 WMT 2014 英语转法语翻译任务上,在 8 块 GPU 上训练了 3.5 天之后,新模型获得了新的单模型顶级 BLEU 得分 41.0,只是目前文献中最佳模型训练成本的一小部分。
2018年-预训练模型
2019年-原理改进
2020年-框架爆发
2021年-数字孪生
2022年-生成式AI
2023年-Chatgpt
参考:https://zhuanlan.zhihu.com/p/100540399