当前位置: 首页 > ai >正文

阅读笔记——理解什么是LLM大语言模型

阅读笔记:
理解LLM
deepseek创新了什么
什么是多模态

什么是token

​​

  1. 定义​​:Token是LLM处理文本的最小单位,相当于语言的"原子"
  2. ​​类比​​:
    中文:1个token ≈ 1个汉字或常见词(如"模型"可能为1个token)
    英文:1个token ≈ 4个字母(如"apple"可能拆为"app"+“le”)

每个token都会在模型中生成三个核心向量
在这里插入图片描述
○ Q 是查询向量

○ K 是线索向量

○ V 是答案向量

候选token:在自注意力机制中,​​候选token​​ 是指当前token在计算注意力权重时,所有可能与之发生交互的其他token。

api

大语言模型的 本质就是文字接龙 , 相对应的使用大模型也比较简单. 可以参见deepseek的文字接龙 api 请求:
在这里插入图片描述

tools 工具支持:

大模型对 function calling 的支持,即大模型可以调用各种外部工具

为什么说LLM是无状态的

LLM有自注意力机制能​​动态关联上下文​​(通过Q/K/V向量),但LLM却被认为​​无状态​​。这看似矛盾,实则反映了不同层级的特性:
在这里插入图片描述
这时候就有一个问题,既然LLM是无状态的,不能记住跨序列的多次输入,那么LLM是如何持续关联一个对话的上下文的?——增加一个外部记忆库(传统方案是增大一个序列的max_length)

http://www.xdnf.cn/news/9524.html

相关文章:

  • 解决 NestJS 中热重载与实体类自动导入不能兼容的问题
  • 使用nvm use切换版本号,报exit status 5
  • spring4第3课-ioc控制反转-详解依赖注入的4种方式
  • 独立站引流新策略:AB站投放法助力突破瓶颈
  • JavaScript 中,require 和 import
  • zabbix6.x 监控mysql数据库
  • 【深度剖析】义齿定制行业数字化转型模式创新研究(上篇:行业概况)
  • Vulnhub_Zico2_wp
  • LNMP 架构部署
  • 《基于AIGC的智能化多栈开发新模式》研究报告重磅发布! ——AI重塑软件工程,多栈开发引领未来
  • 腾讯混元开源语音数字人模型 HunyuanVideo-Avatar:开启数字人 “能说会唱” 新时代
  • 上海AI Lab 提出ULTRAIF方法,通过两阶段过程合成高质量指令遵循数据集,代码与数据集完全开源!
  • 基于GA遗传优化的FIR滤波器幅频相频均衡补偿算法matlab仿真
  • 网页前端开发(基础进阶1)
  • KONG根据请求参数限流
  • 线代第四章线性方程组第四节:方程组解的结构
  • 使用java实现word转pdf,html以及rtf转word,pdf,html
  • DeepSeek实战:构建智能问答系统的完整指南
  • Android学习之定时任务
  • 【组件】翻牌器效果
  • More SQL(Focus Subqueries、Join)
  • 如何优化Elasticsearch的搜索性能?
  • 登高架设作业考试中常见的安全规范考点是什么?
  • DBeaver 连接 OceanBase Oracle 租户
  • react-native的token认证流程
  • AI觉醒前兆,ChatGPT o3模型存在抗拒关闭行为
  • 《吾心悔已》---李劭卓2025.5.28
  • 漫画Android:View是怎么绘制出来的?
  • MySQL数据库(一)
  • 华为OD机试真题——最佳的出牌方法(2025A卷:200分)Java/python/JavaScript/C/C++/GO最佳实现