当前位置: 首页 > news >正文

一分钟了解大语言模型(LLMs)

一分钟了解大语言模型(LLMs)

A Minute to Know about Large Language Models (LLMs)

By Jackson@ML

自从ChatGPT上线发布以来,在短短的两年多时间里,全球ChatBot(聊天机器人)发展异常迅猛,更为突出的是,生成式人工智能(Generative AI)也广为人知,并上了热搜。

1. 什么是大语言模型?

在生成式人工智能广泛进入人们视野的时候,人工智能的这一特定领域,也迸发出前所未有的生机和活力。

生成式人工智能专注于创建能自主生成新的原创内容,并且无论从生成的高效还是质量方面,都令人敬畏。

大语言模型(Large Language Models, 简称LLMs) ,又称大规模语言模型或者大模型(依照不同书籍的译者所言),说白了就是一种生成式AI,通俗地说,就是能根据给定的输入(也就是prompts,提示词)生成人类可以理解的文本。

不同大语言模型产品的例子有:OpenAI推出的GPT系列,Gemini系列,Qwen(通义千问)系列等。

2. 大语言模型机理

大语言模型,是基于大量数据预训练的大型深度学习模型。它的底层转换器是一组神经网络,这些神经网络经由具备注意力机制编码器和解码器构成。

编码器和解码器既从一系列文本中提取含义,并理解其中的单词和短语之间的关系。
转换器LLM能进行无监督学习训练,其实,更精确的解释是,转换器可进行自主学习。通过这个过程,转换器可学会理解基本语法、语言和知识。

与早期的循环神经网络(Recurrent Neural Networks, 即RNN) 不同,转换器并行处理整个序列,可让数据科学家使用GPU训练基于转换器的大语言模型,从而大幅度缩短训练时间。

3. 大语言模型的强大功能

大语言模型非常灵活。一个模型可以执行多种不同的任务,例如:回答用户问题,总结文档,翻译语言以及完成语句等;尽管大语言模型可能破坏内容创作,并且使人们依赖搜索引擎和虚拟助手,但LLM表现出的非凡本领,依然为全球用户所痴迷。

LLM仅需用户输入相对较少的提示词,就能输出完整的、系统化的方案并且做出非凡的预测。LLM之所以带来的数据,相当一部分就是根据人类语言输入提示,从而生成内容。

4. 大语言模型的多种应用

LLM有很多不同的实际应用,为人们带来效率提升和系统方案。有以下几方面:

1) 文案写作

除了 GPT-3 和 ChatGPT 之外,Claude、Llama 2、Cohere Command 和 Jurassic 也可编写原件。AI21 Wordspice 建议修改原始语句以改善风格和语音。

2) 知识库回答

知识库问答技术,通常称为知识密集型自然语言处理(KI-NLP),是指可以根据数字存档中的信息帮助回答特定问题的 LLM。AI21 Studio playground 能够回答常识性问题就是此类示例。

3) 文本分类

使用集群,LLM 可以对含义或情绪相似的文本进行分类。用途包括衡量客户情绪、确定文本之间的关系和文档搜索。

4) 代码生成

LLM 擅长根据自然语言提示生成代码。示例包括 Amazon CodeWhisperer 和 GitHub Copilot 中使用的 Open AI Codex,它们可以用 Python、JavaScript、Ruby 和其它编程语言编码。其他编码应用包括创建 SQL 查询、编写 Shell 命令和进行网站设计。了解有关人工智能代码生成的更多信息。

5) 文本生成

与代码生成类似,操作文本生成可以完成不完整的语句,用来编写产品文档,或者像 Alexa Create 一样创作简短的儿童故事。

5. 大语言模型的企业和产品

已经发布的大语言模型企业和产品主要有以下这些:
1) OpenAI的GPT-3, GPT-4
2) Google的BERT, T5和PaLM
3) Meta的LLaMA
4) Microsoft的Turing-NLG
5) Anthropic的Claude
6) DeepMind的Gopher, Chinchilla
7) Cohere的Cohere AI
8) 阿里巴巴的通义千问(Qwen)
9) Hugging Face的BLOOM
10) NVIDIA的Megatron-Turing NLG
11) 腾讯的混元
12) EleutherAI的GPT-Neo, GPT-J
13) SenseTime的SenseChat
14) 清华大学的CPM
15) 北京大学的盘古
16) 复旦大学的MOSS
17) 上海AI Lab的OpenChat
18) IDEA的IDEA-CCNL
等等。

关于大语言模型的资源,应用,开发或者其它场景,还有很多很多。


人工智能技术好文陆续推出,敬请关注、收藏和点赞👍!

您的认可,我的动力!😃

相关阅读:

  1. 一分钟了解深度学习
  2. 一分钟了解manus - 全球首款通用AI Agent
  3. 社交网络分析(SNA)简介
  4. 检索增强生成(RAG)简介
  5. 新一代智能开发环境Trae应用指南
  6. 新一代AI程序开发利器Windsurf应用指南
  7. 新一代Python专业编译器Nuitka应用指南
  8. 新一代AI智能体开发环境Cursor应用指南
  9. 新一代Python包管理器UV应用指南
http://www.xdnf.cn/news/441721.html

相关文章:

  • 濒危仙草的重生叙事:九仙尊米斛花节如何以雅集重构中医药文化IP
  • NNLM神经网络语言模型总结
  • react中安装依赖时的问题 【集合】
  • Android Studio Meerkat与Gradle构建工具升级实战指南
  • 2025年中国主流DevOps平台对比分析:Gitee、阿里云效与GitLab CE的技术适配与合规实践全景解读
  • excel使用笔记
  • Qt笔记---》.pro中配置
  • 【IDEA】注释配置
  • 西门子WinCC Unified PC的GraphQL使用手册
  • 常见排序算法及其java实现
  • 《Python星球日记》 第69天:生成式模型(GPT 系列)
  • JVM学习专题(二)内存模型深度剖析
  • STMCubeMX使用TB6612驱动编码轮并进行测速
  • 微信开发者工具里面模拟操作返回、录屏、网络速度、截屏等操作
  • 94. 二叉树的中序遍历详解:迭代法核心逻辑与出入栈模拟
  • 关于数据湖和数据仓的一些概念
  • 深入解析JVM字节码解释器执行流程(OpenJDK 17源码实现)
  • 44、私有程序集与共享程序集有什么区别?
  • 工具学习_模糊测试
  • 中天互联在数据采集方面有哪些优势?
  • 初探 Skynet:轻量级分布式游戏服务器框架实战
  • 二叉树——层序遍历
  • MCU程序加密保护(二)ID 验证法 加密与解密
  • SCDN如何有效防护网站免受CC攻击?——安全加速网络的实战解析
  • 深度强化学习 | 图文详细推导软性演员-评论家SAC算法原理
  • FPGA: Xilinx Kintex 7实现PCIe接口
  • 数据库基础复习笔记
  • 量子计算实用化突破:从云端平台到国际竞合,开启算力革命新纪元
  • 40:相机与镜头选型
  • 虚幻引擎5-Unreal Engine笔记之Qt与UE中的Meta和Property