当前位置: 首页 > news >正文

关于人工智能AI>ML>DL>transformer及NLP的关系

一、AI、ML、DL、NLP的极简概念

1、人工智能(AI)有不同的定义,但其中一个定义或多或少已成为共识,即AI是一个计算机系统,它能够执行通常需要人类智能才能完成的任务。根据这个定义,许多算法可以归纳为AI算法,比如导航应用程序所用的交通预测算法或策略类视频游戏所用的机遇规则的系统。从表面看,这些示例中,计算机似乎需要智能才能完成相关任务。

图片

  从AI到Transformer的嵌套技术组合

2、机器学习(machine learning,ML)是AI的一个子集,在ML中,我们不试图直接实现AI系统使用的决策规则。相反,我们试图开发算法,使系统能够通过示例数据自己学习。

3、深度学习(deep learning,DL)算法已经引起了广泛关注。DL是ML的一个分支,专注于受大脑结构启发的算法,这些事算法倍称为人工神经网络(artifical neural network)。它们可以处理大量的数据,并别在图像识别、语音识别及NLP等任务上表现出色。

4、自然语言处理(Natural language process,NLP)是ML和AI的一个子领域。专注于使计算机能够处理、解释和生产人类语言,现代NLP解决方案基于ML算法。NLP的目标是让计算机能够处理自然语言文本。这个目标设计诸多任务,例如文本分类、自动翻译、问题回答。

5、GPT-4和ChatGPT基于一种特定的神经网络架构(即Transformer),基于大量数据训练而成的NLP领域中的大语言模型(LLM),它们能够以非常高的准确性识别和生成人类可读的文本。

二、Transformer如何呼之欲出的

Transformer是一种基于自注意力机制的深度学习模型,由Google2017年提出。彻底改变了NLP领域的序列建模方式,它通过并行计算和全局依赖建模,解决了传统循环神经网络(RNN)的长距离依赖难题,成为现代大模型(如BERT、GPT)的基石。经历了下面三个主要阶段。

1、LLM的发展可以追溯到几年前,它始于简单的语言模型,如n-gram模型,n-gram模型通过使用词频来根据前面的词预测句子中的下一个词,因此又称为概率模型,其预测结果是在训练文中中紧随前面的词出现的频率最高的词。虽然这种方法提供了不错的着手点,但是n-gram模型在理解上下文和语法方面仍需改进,因为它有时会生成不连贯的文本。

2、为了提高n-gram模型的性能,人们引入了更先进的学习算法,包括循环神经网络(recurrent neural network,RNN)和长短期记忆(long short-term memory,LSTM)网络。与n-gram模型相比,这些模型能够学习更长的序列,并且能够更好地分析上下文,但他们在处理大量数据时的效率仍然欠佳。尽管如此,在很长的一段时间里,这些模型算法是最高效的。因此在自动翻译等任务中被广泛使用。

3、Transformer架构彻底改变了NLP领域,这主要是因为它能够有效地解决之前的NLP模型(如RNN)存在的一个关键问题:很难处理长文本序列并记住其上下文。换句话说,RNN在处理长文本序列时容易忘记上下文(也就是臭名昭著的“灾难性遗忘问题”),Transformer则具备高效处理和编码上下文的能力。改变的核心是注意力机制。

--素材来自《大模型应用开发极简入门》和网络材料

http://www.xdnf.cn/news/1230229.html

相关文章:

  • docker 容器常用命令
  • 用Unity结合VCC更改人物模型出现的BUG
  • 网络安全基础知识【6】
  • Linux 高级 I/O 系统调用详解
  • [硬件电路-114]:模拟电路 - 信号处理电路 - 放大器的种类与比较
  • kotlin小记(1)
  • lumerical——布拉格光栅(2)
  • WAIC引爆AI,智元机器人收购上纬新材,Geek+上市,157起融资撑起热度|2025年7月人工智能投融资观察 · 极新月报
  • 【机器学习】“回归“算法模型的三个评估指标:MAE(衡量预测准确性)、MSE(放大大误差)、R²(说明模型解释能力)
  • webpack面试题及详细答案80题(61-80)
  • linux eval命令的使用方法介绍
  • USB Device(VID_1f3a_PID_efe8) 驱动叹号
  • Kubernetes Gateway API 详解:现代流量路由管理方案
  • 除数博弈(动态规划)
  • wxPython 实践(六)对话框
  • 【05】OpenCV C#——OpenCvSharp 图像基本操作---转灰度图、边缘提取、兴趣区域ROI,图像叠加
  • Day25-对称二叉树-
  • react 和 react native 的开发过程区别
  • React ahooks——副作用类hooks之useThrottleEffect
  • 再见!三层框架开发
  • Java中的sort()排序详解
  • 涉水救援机器人cad【12张】三维图+设计书明说
  • linux编译基础知识-头文件标准路径
  • 轻量级鼠标右键增强工具 MousePlus
  • eSIM技术深度解析:从物理芯片到数字革命
  • Python从入门到精通——第五章 列表与元组
  • 机器学习【五】decision_making tree
  • 深入解析Java Stream Sink接口
  • JVM学习日记(十四)Day14——性能监控与调优(一)
  • 小迪23年-22~27——php简单回顾(2)