当前位置: 首页 > ai >正文

深入理解Embedding技术-什么是Embedding?

核心概念解析

什么是Embedding?

​本质定义​​:
一种将高维度非结构化数据(文本/图像/视频等)映射为低维度连续向量的机器学习技术,构建起现实世界与数学空间的桥梁。

​技术特点​​:

  • 生成N维实值向量(典型维度范围:128-4096)
  • 保留原始数据的语义特征
  • 支持向量运算(如:King - Man + Woman ≈ Queen

资料推荐

  • 💡大模型中转API推荐
  • ✨中转使用教程

核心价值

# 数据转换示意
输入数据 → Embedding模型 → 向量表示

典型处理流程

  1. 原始数据输入(文本/图片/视频等)
  2. 特征提取(NLP中的tokenization,CV中的卷积特征)
  3. 嵌入层处理(神经网络参数学习)
  4. 输出固定维度向量

模型演进路线

模型类型技术突破点典型应用场景
Word2Vec上下文预测机制词级别语义分析
Glove全局共现矩阵分解文档主题建模
FastText子词(subword)表征形态丰富语言处理
大模型Embedding多模态联合训练跨模态检索

主流模型详解

1. Word2Vec

核心架构

  • CBOW(连续词袋模型):通过上下文预测中心词
  • Skip-gram:通过中心词预测上下文

技术局限

  • 无法处理未登录词(OOV)
  • 忽略词序信息

2. Glove模型

GloVe 模型损失函数

该公式表示 GloVe (Global Vectors) 模型的优化目标函数:

J = ∑ i , j = 1 V f ( X i j ) ( w i T w ~ j + b i + b ~ j − log ⁡ X i j ) 2 J = \sum_{i,j=1}^V f(X_{ij}) \left( w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij} \right)^2 J=i,j=1Vf(Xij)(wiTw~j+bi+b~jlogXij)2

​公式解析​​:

符号含义
$ V $词表大小
$ X_{ij} $单词i与j的共现频次
$ f(X_{ij}) $加权函数(抑制高频词影响)
$ w_i, \tilde{w}_j $主/辅词向量
$ b_i, \tilde{b}_j $偏置项

​关键设计特点​​:

  1. 基于全局词共现统计(非局部窗口)
  2. 对数变换处理共现频次
  3. 基于语料库全局统计
  4. 结合矩阵分解与概率模型优势
  5. 在词类比任务中表现优异

3. FastText

核心突破

  • 字符级n-gram特征提取(3≤n≤6)
  • 支持OOV词向量合成
  • 训练速度比Word2Vec快5-10倍

4. 大模型Embedding(以text-embedding-ada-002为例)

参数项技术规格
输入长度最大8191 tokens
输出维度1536维稠密向量
训练数据多语言混合语料库
特殊能力支持跨模态对齐

资料推荐

  • 💡大模型中转API推荐
  • ✨中转使用教程

应用优势

  • 上下文感知("bank"在金融/地理场景不同编码)
  • 零样本迁移学习能力
  • 多语言统一向量空间

注:现代Embedding技术已形成传统词嵌入→上下文嵌入→多模态嵌入的演进路径,向量质量提升带来下游任务准确率30%-60%的增长。

http://www.xdnf.cn/news/5275.html

相关文章:

  • 使用fdisk 、gdisk管理分区
  • Satori:元动作 + 内建搜索机制,让大模型实现超级推理能力
  • python:ASCII-generator 实用教程
  • $\int_{0}^{1} x \arcsin \sqrt{4x - 4x^2}dx$
  • LintCode第366题-斐波那契数列
  • 各种环境测试
  • 解释器和基于规则的系统比较
  • 【Linux基础】文件和目录管理指令
  • 对日开发 TeraTerm ttl脚本开发环境配置
  • python04——条件判断(选择结构)
  • 部署RocketMQ
  • 数孪实战笔记(1)数字孪生的含义、应用及技术体系
  • java-代理
  • [特殊字符] AI网关:大模型时代的智能交通指挥官 [特殊字符]
  • 科大讯飞TTS(文字转语音)和STT(语音转文字)
  • 如何将 Windows 11 的开始菜单移到左侧
  • ECMAScript 2017(ES2017):异步编程与对象操作的革新
  • CUDA编程——性能优化基本技巧
  • 常用的Linux命令100条
  • python 版本管理用的是pyenv pip install 把东西安装到那里了,好的检测方法,注意是windows环境
  • RENAME 语句与RENAME选项学习
  • 理解Yocto项目中`${D}`作为模拟目标系统根文件结构的临时目录
  • 投影显示技术全解析:主流方案对比与雷克赛恩 CyberPro1 的核心优势
  • 【桌面】【输入法】常见问题汇总
  • Day 14
  • 介绍一下synchronized锁升级过程
  • 2024年AI发展趋势全面解析:从多模态到AGI的突破
  • LintCode第485题-生成给定大小的数组,第220题-冰雹猜想,第235题-分解质因数
  • JDBC演进之路:从基础操作到高效连接池
  • 计算机科技笔记: 容错计算机设计03 系统可信性的度量 偶发故障期 浴盆曲线 韦布尔分布