LLM大模型入门知识概念
注意本篇文章知识对于概念做个简单介绍,大概知道有这么个东西,方便理解llm,具体的原理这里不会详细讲述,各位可以自行阅读相关文章学习
LLM基本概念
即Large Language Model,大语言模型
是一种具有大规模参数和复杂计算结构的机器学习模型,通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。其设计目的是提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。LLM在自然语言处理、计算机视觉、语音识别和推荐系统等领域有广泛应用
语言模型为一种机器学习算法,通过大量的文本数据来学习语言的统计特征,进而生成具有相似统计特征的新文本,核心思想为“训练”
本质上是一个文本序列概率预测器
比如输入一段话“今天天气好,可以出去——”,根据概率预测,它会预测给出最适合的词语“玩”、“旅游”,而不是“做作业”
llm演进过程
神经网络革命(NLM)
这个阶段需了解词向量和文本向量
词向量
词向量(Word Embedding)是自然语言处理(NLP)中用来将词语映射为实数向量的技术,通过捕捉语义关系,使相似含义的词在向量空间中距离相近
词向量(word2vec)将单词或短语表示为高维空间中的稠密向量,解决了传统独热编码(One-Hot Representation)的维度灾难和语义缺失问题。例如,独热编码无法体现“苹果”和“香蕉”的相似性,而词向量能通过向量距离反映语义关联
我们可以知道“炒菜”表示的都是一类动作,而“讨厌”是表示的一种情感,但机器无法理解这两个词语之间的关系,对于传统的计算机语言都会编译成机器码010101010。通过把单词向量化从而机器便可对单词进行计算,通过计算不同词向量之间夹角余弦值而得出单词之间的相似程度
缺点
-
无法动态调整词向量:Word2vec在处理中文时,无法根据上下文动态调整词向量的含义。例如,在句子“你这是什么意思? 没什么意思,意思意思。”中,“意思”一词在不同语境下有不同的含义,Word2vec无法根据上下文动态调整其词向量。
-
词汇颗粒度大,难以处理新词和长尾词:中文词汇量大,且有许多新词和低频词。Word2vec的词表有限,难以有效处理这些词汇。例如,在句子“The book was a synthesis of his laboratory experiments in genetics.”中,词汇“synthesis”和“genetic”属于低频词汇,Word2vec可能无法准确表达这些词汇的含义。
-
窗口长度有限:Word2vec的窗口长度有限,只能考虑周围的几个词语,无法考虑全局的文本信息。这限制了其在处理复杂语境时的能力。
-
未考虑全局语序:Word2vec并未严格考虑语序,这可能导致在处理需要语序理解的句子时出现偏差
预训练(PLM)
Word2Vec生成的词向量是静态的,这意味着同一个单词在不同的上下文中会有相同的向量表示。然而,在实际应用中,同一个单词在不同的语境下可能有不同的含义。例如,“苹果”在“我想吃苹果”和“我想换苹果手机”中的含义是不同的,但Word2Vec无法区分这两种情况。同时,传统RNN在长序列中容易丢失早期信息(例如翻译长句子时,开头的词可能被忘记)。
Attention机制通过考虑上下文信息,能够动态地调整词向量,从而更好地适应不同的语境,也进入到了PLM预训练时期
预训练模型(Pre-trained Model)是指在大规模通用数据集上预先训练的深度学习模型,其核心目的是通过迁移学习(Transfer Learning)将学到的通用特征或知识迁移到其他特定任务中,从而节省训练资源并提升性能
attention机制
Attention机制是一种深度学习技术,模仿了人类在处理信息时的注意力机制。人类在观察事物时,会选择性地关注重要的信息,而忽略不重要的信息。类似地,Attention机制帮助模型在处理大量数据时,能够聚焦于最相关的部分,从而提高模型的性能和决策能力
在自然语言处理(NLP)中,Attention机制主要用于处理序列数据,如文本。通过Attention机制,模型可以更好地理解句子中的上下文关系,捕捉到句子中不同部分之间的依赖关系。例如,在机器翻译任务中,Attention机制可以帮助模型在翻译时关注源语言句子中的关键单词,从而提高翻译的准确性和流畅性
Attention机制的计算步骤:
- 输入表示:首先,将输入文本分解为一系列的词向量。
- 查询(Query)、键(Key)、值(Value):在Attention机制中,有三个关键组件:查询(Q)、键(K)和值(V)。查询是当前处理的词向量,键是输入序列中所有词的向量表示,值是与键相对应的值向量。
- 计算注意力权重:通过计算查询与所有键的相似度,得到一个注意力权重分数。这个分数反映了查询与键之间的相关性。
- 加权求和:将得到的注意力权重应用于对应的值向量,通过加权求和得到最终的输出。这个过程使得模型能够聚焦于与查询最相关的信息
举例
对于输入句子“今天心情好,想”:
首先进行词向量映射:通过Word2Vec或GloVe将“今天”“心情”等词转换为静态向量(如300维),但无法区分“想”在不同语境中的语义差异(如“想喝水”vs“想旅行”
- 然后进行序列建模:使用RNN或LSTM逐词处理输入:
- 1,每个时间步更新隐藏状态,记录“今天→心情→好→想”的时序关系;
- 2,基于隐藏状态生成下一个词的概率分布(如“去”概率30%,“吃”概率25%)
- 3,通过贪心搜索选择概率最高的词,循环生成直至结束符
attention机制会在RNN基础上引入注意力权重,动态调整对历史词的关注。例如生成“旅行”时,模型会更关注前文的“心情好”而非“今天
但是受限于循环结构,难以捕捉超过20个词的远程关联(如“今天心情好”与最终生成的“写诗”之间的逻辑联系)
大模型时代(LLM)
2017年Transformer的提出进一步推动了语言模型的发展。2018年至2020年,GPT系列的快速发展,尤其是2022年ChatGPT的推出,将大模型推向了公众视野,成为AI发展的新里程碑。大模型的诞生和发展经历了从语言模型到多模态领域的跨越,涵盖了语言、语音、视觉等多个领域,并细分为通用、行业及任务特定模型
- 由于PLM时期的传统注意力机制之一对于局部滑动窗口计算会遗漏长程逻辑
- 长程依赖失效
- 原因:RNN的梯度消失导致超过20词后信息衰减,LSTM的固定编码丢失远端细节。
- 示例:输入“十年前我在北京工作,当时…后来…现在”,PLM易丢失早期记忆,生成“现在在北京工作”(未关联“十年前”的经历)。
-
静态语义困境
- 示例:“银行”在“存钱”和“河岸”场景中被赋予相同向量,导致生成“去银行钓鱼”等错误。
- 原因:Word2Vec等静态词向量无法动态适配语境
Transformer
自注意机制
自注意力机制(Self-Attention)是一种通过动态计算输入序列内部元素间相关性,来捕捉长距离依赖关系的深度学习技术
自注意力机制的核心在于,它不依赖于外部信息,而是在序列内部元素之间进行信息的交互和整合。这意味着,对于序列中的每个元素,自注意力机制会计算该元素与序列中所有其他元素的相关性,生成一个加权的表示,其中权重反映了元素间的相互关系。
计算过程
自注意力通过以下步骤生成加权输出:
-
生成Q/K/V向量
- 输入序列通过线性变换生成查询(Query)、键(Key)、值(Value)向量。
-
计算注意力得分
- 通过Q与K的点积计算元素间相似度,缩放后应用Softmax归一化,得到注意力权重。
-
加权求和输出
- 用权重对V向量加权求和,形成每个元素的最终输出
国内外大模型
国外主流大模型
- GPT系列(OpenAI)覆盖GPT-4o、GPT-4.1等版本,支持多模态交互与插件扩展,长期占据全球技术领先地位。
- Claude系列(Anthropic)强调安全性与长文本处理能力,Claude 2.0版本支持30万字上下文解析,适合学术研究场景。
- Gemini(Google)多模态模型,整合搜索引擎能力,在商业分析与教育领域应用广泛。
- Llama(Meta)开源生态完善,开发者社区活跃,最新版本Llama-3-70B在多项基准测试中表现优异。
国内主流大模型
- 通义千问(Qwen)(阿里云)Qwen2.5-Max版本采用混合专家模型(MoE),数学与编程能力全球领先,开放免费API服务。
- 文心一言(ERNIE Bot)(百度)中文优化显著,4.5 Turbo版本新增多模态生成能力,覆盖文学创作与商业文案场景。
- DeepSeek(深度求索)开源模型DeepSeek-R1成本比同类低97%,代码生成能力突出,获国家超算互联网平台支持。
- 智谱清言(ChatGLM)(智谱AI)GLM-4-0414版本支持200万字长文本处理,推理与多轮对话能力强。
- 豆包(字节跳动)聚焦语音交互场景,数学与任务解决能力在测评中表现优异。
- 讯飞星火(科大讯飞)星火4.0 Turbo版本强化语音识别与合成技术,支持文本生成与多模交互。
- Kimi(月之暗面)长文本处理能力突出,支持20万汉字上下文无损解析,适合复杂文档分析。
prompt
在LLM(大型语言模型)中,Prompt是指用户给模型发出的指令或提示,用于引导模型生成符合预期主题或内容的文本,从而控制生成结果的方向和内容。这些提示可以是问题、命令或其他形式的自然语言文本,例如“写一首关于秋天的诗”或“什么是大语言模型”。
Prompt的作用和重要性
- 引导模型生成预期内容:通过提供合适的提示,用户可以控制模型生成文本的方向和内容,确保输出符合特定需求。
- 提高模型安全性:通过提示工程(Prompt Engineering),用户可以提高大型语言模型的安全性,避免生成不当内容或错误信息。
- 赋能模型:通过优化提示词,可以增强大型语言模型的能力,使其在特定任务上表现更佳
AI Agent
能自己观察环境、思考对策、调用工具完成任务,这就是智能体
和传统AI的区别:传统AI像机器,只能按固定流程执行命令;而Agent更像真人,能灵活应对复杂情况。比如,它能根据用户需求自动分解任务(比如订机票→查天气→推荐行程),还能调用数据库、计算工具等。
核心能力:记性好(长期记忆+短期记忆)、会做计划、能调用工具(比如查资料、发邮件)。
工作原理:
- 感知环境:AI Agent通过自然语言处理(NLP)等技术理解用户的指令和需求,抓取关键词并理解用户的意图。
- 自主决策:基于大模型的语言理解、推理与生成能力,Agent能够自主进行任务规划、决策和执行。它能够像人类一样主动规划如何完成任务,而不是仅仅执行预设的指令。
- 工具使用:Agent能够使用各种工具(如API、数据库、硬件设备等)来完成任务,并与外部系统进行交互。
- 记忆功能:Agent通过存储经验和知识,支持长期学习,能够记录任务历史、用户信息和个人偏好等,以便更好地完成任务。
- 反馈机制:Agent在执行任务过程中,能够根据子任务的执行结果和反馈进行调整和优化,不断提升自身的性能和策略
国内AI Agent平台
1,文心智能体平台 文心智能体平台AgentBuilder,是百度推出的基于文心大模型的智能体平台,支持广大开发者根据自身行业领域、应用场景,选取不同类型的开发方式
地址 http://agents.baidu.com
2,kimi智能体
https://kimi.moonshot.cn/kimiplus-square
3.通义千问
通义 - 你的实用AI助手
4,腾讯元器
腾讯的元器平台由腾讯混元大模型团队推出,主要面向企业和开发者。该平台为智能体提供了强大的支持,包括大规模预训练模型和丰富的开发工具,旨在帮助企业用户快速构建AI应用并实现商业化。
地址 腾讯元器
5,coze扣子平台
扣子(Coze)是由字节跳推出的一站式AI应用开发平台,旨在降低AI开发门槛,让用户无需编程经验即可快速创建、调试和部署各类AI智能体(如聊天机器人、自动化工具等)
地址 扣子
copilot
这个词语在日常工作中听得也比较多
copilot是一个集成了多种功能的AI助手平台,旨在提升人机协作的效率和体验。
主要功能和应用场景
- 自动化代码生成:Copilot支持自动化代码生成,帮助开发者快速编写代码,提高编程效率1。
- 虚拟建模:用户可以通过Copilot进行虚拟建模,简化设计和开发过程。
- 深度推理模型驱动的Researcher和Analyst:这些AI助手可以帮助用户进行深度分析和推理,支持复杂问题的解决。
- 内容创作:Copilot整合了GPT-4模型,用户可以生成符合企业品牌规范的AI影像或图片,应用于营销文案、社群素材等。
- Copilot Notebooks:该功能可以整合对话记录、个人笔记、文件、会议记录等,生成洞察与行动建议,并支持音讯摘要和重点提取。
- Copilot Search:这是一个AI企业搜寻功能,支持多平台应用集成,帮助用户快速获取所需信息
可以理解为利用了LLM技术构建的一款平台
rag知识库
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了信息检索与文本生成的技术,旨在通过引入外部知识库,增强大语言模型(LLM)的生成能力,解决其知识更新滞后、幻觉和领域知识不足等问题。
RAG的工作原理
RAG主要由三个核心部分组成:检索模块、增强模块和生成模块。当用户提出问题后,检索模块会根据问题的关键词和语义,在预先构建的知识库中快速检索相关信息。增强模块会对检索到的信息进行筛选、清洗和重新组织,提取出关键信息并整合为更适合输入到生成模块的格式。最后,生成模块将这些信息与原始问题整合为提示词,输入大模型生成最终答案。
RAG的应用场景
- 智能客服:在智能客服系统中,RAG可以动态检索产品手册与用户反馈,提供个性化服务。例如,东航推出的基于RAG大模型技术的AI业务助手,能够为一线客服人员提供智能问答,提升服务响应效率3。
- 问答系统:结合企业知识库,快速解答内部员工的专业问题。
- 数据分析:通过自然语言查询实时数据库,生成可视化报告。
- 多模态融合:结合知识图谱与多模态数据(如图像、表格),支持复杂推理任务(如财务报告生成)
MCP
MCP(Model Context Protocol,模型上下文协议)的主要功能和作用是为大型语言模型(LLM)提供一种通用接口,使其能够安全、动态地连接和操作外部数据源、工具及服务。MCP由Anthropic公司于2024年11月推出,旨在解决大模型在处理长对话、复杂任务和多轮交互时面临的上下文管理难题
MCP的工作原理和架构
MCP采用客户端-服务器架构,核心组成部分包括:
- MCP主机:发起请求的AI应用程序,如聊天机器人、AI驱动的IDE等。
- MCP客户端:在主机程序内部,与MCP服务器保持1:1的连接。
- MCP服务器:为MCP客户端提供上下文、工具和提示信息。每个MCP服务器都专精于一类工作,如读写浏览器、读写本地文件、操作Git仓库等。
MCP的优势和应用场景
MCP作为一种开放标准协议,提供了统一的接口和流程,支持工具发现、调用执行、双向通信和上下文管理,适用于复杂场景下的多工具协调与上下文管理。它解决了大模型在处理长对话和多轮交互时面临的上下文长度限制导致的信息丢失问题。通过分层注意力机制和上下文压缩技术,MCP能够结构化存储对话内容,确保信息的完整性和可用性
AIGC
AIGC(Artificial Intelligence Generated Content)通过生成算法(如GAN、Transformer等)和预训练模型,模仿人类创造力生成内容。其定义分为:
- 狭义:自动化生产内容(如写作、设计)。
- 广义:具备多模态生成能力,可创造文本、图像、音乐、视频甚至代码等全新内容。
AIGC依赖以下技术实现多模态生成:
- 文本生成(如AI写作)。
- 图像生成(如Diffusion模型生成独特图像)。
- 语音与视频生成(如语音克隆、自动剪辑)。
其核心优势在于数据驱动,通过大规模训练实现跨领域知识迁移
AI工具编辑器
-
trae,由字节跳动推出,是一款AI驱动的代码编程工具,旨在通过AI技术提升开发效率,降低编程门槛。Trae支持多种功能,包括可视化操作、自然语言描述、智能代码生成与补全、多模态交互等。它还提供免费版本,内置的AI模型也免费使用。
-
githup copilot 由GitHub、OpenAI和微软Azure团队联合推出,是目前市场上最受欢迎的AI编程工具之一。Copilot基于OpenAI的Codex模型,支持多种编程语言和IDE,提供智能代码建议和自动补全功能。
-
cursor基于VS Code构建的AI驱动编辑器,整合了强大的代码生成、理解和重构能力。Cursor提供智能代码补全和生成功能,支持代码解释和重构,内置AI聊天功能,但高级功能需要付费订阅。
-
v0.dev,由Vercel推出,专注于通过文本描述生成高质量的React/Next.js代码和UI组件。它支持Tailwind CSS,与Vercel生态系统无缝集成,但主要专注于UI组件生成,不适合算法开发,且部分高级功能需要付费。
-
same.dev,专注于代码生成和理解的AI开发工具,支持vue或react等多种编程语言。它提供代码生成和理解功能,但具体信息较少
-
codegeex,基于CodeGeeX2多语言代码生成模型,适配多种主流IDE,支持多种编程语言,能够显著提高工作效率
大模型框架
Java语言
Spring AI
Langchain4J
JBoltAI
go语言
eino
参考
AI Agent:7个国内框架 & Agent应用,收藏这一篇就够了!!_ai agent应用框架-CSDN博客
https://zhuanlan.zhihu.com/p/20232269494
LLM基础概念(RAG、微调流程、Prompt)_先了解了 llm prompt rag原理 要达到自己能够讲出来的地步-CSDN博客
Transformer 模型介绍(三)——自注意力机制 Self-Attention_自注意力模块-CSDN博客
https://zhuanlan.zhihu.com/p/16752903069
我独到的技术见解:LLM的演进与发展-腾讯云开发者社区-腾讯云
从零详细地梳理一个完整的 LLM 训练流程-腾讯云开发者社区-腾讯云
大白话讲解: Agent、 LLM 、RAG 、提示词工程_agent + rag-CSDN博客
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望-腾讯云开发者社区-腾讯云
MCP(模型上下文协议)深度解析:一篇文章彻底理解_mcp协议-CSDN博客
深入解析 Model Context Protocol (MCP):无缝连接 LLM 与外部世界的开放协议