当前位置：首页 > java >正文

深度学习近十年的汇总

java 2025/7/2 5:44:17

深度学习

近10年发展路程
- 2011年-激活函数ReLU
- 2012年-AlexNet
- 2013年-word2vec
- 2014年-GAN, Adam, Attention
- 2015年-ResNet
- 2016年-AlphaGo
- 2017年-Transform
- 2018年-预训练模型
- 2019年-原理改进
- 2020年-框架爆发
- 2021年-数字孪生
- 2022年-生成式AI
- 2023年-Chatgpt

近10年发展路程

2011年-激活函数ReLU

《Deep Sparse Rectifier Neural Networks（ReLU）》（被引：）

论文链接：https://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf

早期的神经网络大多使用 sigmoid 激活函数。虽然它具有很好的效果，但是，随着层数的增加，这种激活函数使得梯度很容易出现衰减。在 2011 年的这篇论文中，ReLU 被正式提出。它能够帮助解决梯度消失的问题，为神经网络增加深度铺路。

当然，ReLU 也有一些缺点。在函数为 0 的时候不可微，而神经元可能会死亡。在 2011 年之后，很多针对 ReLU 的改进也被提了出来, 以下是相关论文：

《Rectifier Nonlinearities Improve Neural Network Acoustic Models（Leaky ReLU）》
《Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)》
《Self-Normalizing Neural Networks（SELUs）》
《Gaussian Error Linear Units (GELUs)》

2012年-AlexNet

《ImageNet Classification with Deep Convolutional Neural Networks（AlexNet）》（被引：）

论文链接：

AlexNet 经常被认为是这一波人工智能浪潮的起点，该网络在 ImageNet 挑战赛中的错误率与前一届冠军相比减小了 10% 以上，比亚军高出 10.8 个百分点。AlexNet 是由多伦多大学 SuperVision 组设计的，由 Alex Krizhevsky, Geoffrey Hinton 和 Ilya Sutskever 组成。

AlexNet 是一个 8 层的卷积神经网络，使用 ReLU 激活函数，总共有 6 千万参数量。AlexNet 的最大贡献在于证明了深度学习的能力。它也是第一个使用并行计算和 GPU 进行加速的网络。

在 ImageNet 上，AlexNet 取得了很好的表现。它将识别错误率从 26.2% 降到了 15.3%。显著的性能提升吸引了业界关注深度学习，使得 AlexNet 成为了现在这一领域引用最多的论文。

2013年-word2vec

《Distributed Representations of Words and Phrases and their Compositionality（word2vec）》（被引：）
论文链接：https://proceedings.neurips.cc/paper_files/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf

Word2vec 是由谷歌研究团队里 Thomas Mikolov 等人提出的模型，该模型能从非常大的数据集中计算出用以表示词的连续型向量。word2vec 成为了 NLP 领域的深度学习主要的文本编码方式。它基于在相同语境中同时出现词具有相似含义的思路，使文本可以被嵌入为向量，并用于其他下游任务。

DeepMind 在这一年提出的用 DQN 玩雅达利游戏开启了深度强化学习研究的大门。强化学习过去大多数情况下用在低维环境中，很难在更复杂的环境中使用。雅达利游戏是第一个强化学习在高维环境中的应用。这一研究提出了 Deep Q-learning 算法，使用了一个基于价值的奖励函数。

2014年-GAN, Adam, Attention

《Generative Adversarial Networks》（被引：）
论文链接：

生成对抗网络（Generative Adversarial Network，简称 GAN）是 Ian Goodefellow 等人提出的非监督式学习方法，通过让两个神经网络相互博弈的方式进行学习。自 2014 年 GAN 网络提出以来，其在 Computer Vision（计算机视觉）等领域获得了广泛的关注

生成对抗网络（GAN）的成功在于它能够生成逼真图片。这一网络通过使用生成器和判别器之间的最小最大（minimax）博弈，GAN 能够建模高纬度、复杂的数据分布。在 GAN 中，生成器用于生成假的样本，而判别器进行判断（是否为生成数据）。

《Adam: A Method for Stochastic Optimization》（被引：）
论文链接：https://arxiv.org/abs/1412.6980

Adam 由于其易微调的特性而被广泛使用。它基于对每个参数的不同学习率进行适应这种思想。虽然近来有对 Adam 性能提出质疑的论文出现，但它依然是深度学习中最受欢迎的目标函数。

2015年-ResNet

《Deep Residual Learning for Image Recognition》（被引：）
论文链接：https://arxiv.org/abs/1512.03385

从 ResNet 开始，神经网络在视觉分类任务上的性能第一次超越了人类。这一方法赢得了 ImageNet 2015、以及 COCO 竞赛的冠军，也获得了 CVPR2016 的最佳论文奖：该研究的作者是何恺明、张祥雨、任少卿和孙剑。

最初 ResNet 的设计是用来处理深层 CNN 结构中梯度消失和梯度爆炸的问题，如今 Residual Block 已经成为了几乎所有 CNN 结构中的基本构造。

这个想法很简单：将输入（input）从卷积层的每个块添加到输出（output）。残差网络之后的启示是，神经网络不应分解为更多的层数，在最不理想的情况下，其他层可以简单设置为恒等映射（identity mapping）。但在实际情况中，更深层的网络常常在训练上遇到困难。残差网络让每一层更容易学习恒等映射，并且还减少了梯度消失的问题。

尽管并不复杂，但残差网络很大程度上优于常规的 CNN 架构，尤其在应用于更深层的网络上时。

2016年-AlphaGo

《Mastering the game of Go with deep neural networks and tree search》（Nature，被引：）
论文链接：https://www.nature.com/articles/nature16961

很多人对于现代 AI 的理解始于 DeepMind 的围棋程序 AlphaGo。AlphaGo 研究项目始于 2014 年，目的是为了测试一个使用深度学习的神经网络如何在 Go 上竞争。

AlphaGo 比以前的 Go 程序有了显着的改进，在与其他可用围棋程序（包括 Crazy Stone 和 Zen）的 500 场比赛中，在单台计算机上运行的 AlphaGo 赢得了除一个之外的所有胜利，而运行在多台计算机上的 AlphaGo 赢得了与其他 Go 程序对战的所有 500 场比赛，在与单台计算机上运行的 AlphaGo 比赛中赢下了 77％的对阵。2015 年 10 月的分布式版本使用了 1,202 个 CPU 和 176 个 GPU，当时它以 5: 0 的比分击败了欧洲围棋冠军樊麾（职业 2 段选手），轰动一时。

这是计算机围棋程序第一次在全局棋盘（19 × 19）且无让子的情况下击败了人类职业棋手。2016 年 3 月，通过自我对弈进行练习的加强版 AlphaGo 在比赛中以 4: 1 击败了世界围棋冠军李世石，成为第一个在无让子情况下击败围棋职业九段棋手的计算机程序，载入史册。赛后，AlphaGo 被韩国棋院授予名誉职业九段的称号。

2017年-Transform

《Attention Is All You Need》（被引：）
论文链接：https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

著名的 Transformer 架构出现了。2017 年 6 月，谷歌宣布又在机器翻译上更进了一步，实现了完全基于 attention 的 Transformer 机器翻译网络架构，并且还在 WMT 2014 的多种语言对的翻译任务上超越了之前 Facebook 的成绩，实现了新的最佳水平。

在编码器-解码器配置中，显性序列显性转导模型（dominant sequence transduction model）基于复杂的 RNN 或 CNN。表现最佳的模型也需通过注意力机制（attention mechanism）连接编码器和解码器。

谷歌提出了一种新型的简单网络架构——Transformer，它完全基于注意力机制，彻底放弃了循环和卷积。两项机器翻译任务的实验表明，这些模型的翻译质量更优，同时更并行，所需训练时间也大大减少。新的模型在 WMT 2014 英语转德语的翻译任务中取得了 BLEU 得分 28.4 的成绩，领先当前现有的最佳结果（包括集成模型）超过 2 个 BLEU 分值。在 WMT 2014 英语转法语翻译任务上，在 8 块 GPU 上训练了 3.5 天之后，新模型获得了新的单模型顶级 BLEU 得分 41.0，只是目前文献中最佳模型训练成本的一小部分。