一分钟了解大语言模型(LLMs)
一分钟了解大语言模型(LLMs)
A Minute to Know about Large Language Models (LLMs)
By Jackson@ML
自从ChatGPT上线发布以来,在短短的两年多时间里,全球ChatBot(聊天机器人)发展异常迅猛,更为突出的是,生成式人工智能(Generative AI)也广为人知,并上了热搜。
1. 什么是大语言模型?
在生成式人工智能广泛进入人们视野的时候,人工智能的这一特定领域,也迸发出前所未有的生机和活力。
生成式人工智能专注于创建能自主生成新的原创内容,并且无论从生成的高效还是质量方面,都令人敬畏。
大语言模型(Large Language Models, 简称LLMs) ,又称大规模语言模型或者大模型(依照不同书籍的译者所言),说白了就是一种生成式AI,通俗地说,就是能根据给定的输入(也就是prompts,提示词)生成人类可以理解的文本。
不同大语言模型产品的例子有:OpenAI推出的GPT系列,Gemini系列,Qwen(通义千问)系列等。
2. 大语言模型机理
大语言模型,是基于大量数据预训练的大型深度学习模型。它的底层转换器是一组神经网络,这些神经网络经由具备注意力机制编码器和解码器构成。
编码器和解码器既从一系列文本中提取含义,并理解其中的单词和短语之间的关系。
转换器LLM能进行无监督学习训练,其实,更精确的解释是,转换器可进行自主学习。通过这个过程,转换器可学会理解基本语法、语言和知识。
与早期的循环神经网络(Recurrent Neural Networks, 即RNN) 不同,转换器并行处理整个序列,可让数据科学家使用GPU训练基于转换器的大语言模型,从而大幅度缩短训练时间。
3. 大语言模型的强大功能
大语言模型非常灵活。一个模型可以执行多种不同的任务,例如:回答用户问题,总结文档,翻译语言以及完成语句等;尽管大语言模型可能破坏内容创作,并且使人们依赖搜索引擎和虚拟助手,但LLM表现出的非凡本领,依然为全球用户所痴迷。
LLM仅需用户输入相对较少的提示词,就能输出完整的、系统化的方案并且做出非凡的预测。LLM之所以带来的数据,相当一部分就是根据人类语言输入提示,从而生成内容。
4. 大语言模型的多种应用
LLM有很多不同的实际应用,为人们带来效率提升和系统方案。有以下几方面:
1) 文案写作
除了 GPT-3 和 ChatGPT 之外,Claude、Llama 2、Cohere Command 和 Jurassic 也可编写原件。AI21 Wordspice 建议修改原始语句以改善风格和语音。
2) 知识库回答
知识库问答技术,通常称为知识密集型自然语言处理(KI-NLP),是指可以根据数字存档中的信息帮助回答特定问题的 LLM。AI21 Studio playground 能够回答常识性问题就是此类示例。
3) 文本分类
使用集群,LLM 可以对含义或情绪相似的文本进行分类。用途包括衡量客户情绪、确定文本之间的关系和文档搜索。
4) 代码生成
LLM 擅长根据自然语言提示生成代码。示例包括 Amazon CodeWhisperer 和 GitHub Copilot 中使用的 Open AI Codex,它们可以用 Python、JavaScript、Ruby 和其它编程语言编码。其他编码应用包括创建 SQL 查询、编写 Shell 命令和进行网站设计。了解有关人工智能代码生成的更多信息。
5) 文本生成
与代码生成类似,操作文本生成可以完成不完整的语句,用来编写产品文档,或者像 Alexa Create 一样创作简短的儿童故事。
5. 大语言模型的企业和产品
已经发布的大语言模型企业和产品主要有以下这些:
1) OpenAI的GPT-3, GPT-4
2) Google的BERT, T5和PaLM
3) Meta的LLaMA
4) Microsoft的Turing-NLG
5) Anthropic的Claude
6) DeepMind的Gopher, Chinchilla
7) Cohere的Cohere AI
8) 阿里巴巴的通义千问(Qwen)
9) Hugging Face的BLOOM
10) NVIDIA的Megatron-Turing NLG
11) 腾讯的混元
12) EleutherAI的GPT-Neo, GPT-J
13) SenseTime的SenseChat
14) 清华大学的CPM
15) 北京大学的盘古
16) 复旦大学的MOSS
17) 上海AI Lab的OpenChat
18) IDEA的IDEA-CCNL
等等。
关于大语言模型的资源,应用,开发或者其它场景,还有很多很多。
人工智能技术好文陆续推出,敬请关注、收藏和点赞👍!
您的认可,我的动力!😃
相关阅读:
- 一分钟了解深度学习
- 一分钟了解manus - 全球首款通用AI Agent
- 社交网络分析(SNA)简介
- 检索增强生成(RAG)简介
- 新一代智能开发环境Trae应用指南
- 新一代AI程序开发利器Windsurf应用指南
- 新一代Python专业编译器Nuitka应用指南
- 新一代AI智能体开发环境Cursor应用指南
- 新一代Python包管理器UV应用指南