LLM之RAG实战(五十五)| 阿里开源新模型,Qwen3-Embedding与Qwen3 Reranker强势来袭!
Github地址:https://github.com/QwenLM/Qwen3-Embedding
家人们,今天必须给大家分享一个炸裂的消息!就在2025年6月5号,阿里带着它的 Qwen3-Embedding 和 Qwen3 Reranker 模型强势来袭,直接在 AI 领域投下了一颗巨型炸弹 !这两个模型一开源,瞬间点燃了技术圈的热情,无数开发者和技术爱好者都为之疯狂。你是不是已经迫不及待想知道这两个模型到底有多大能耐,能让大家如此激动?别着急,接下来就让我们一起深入了解一下这两位 “明星选手”,看看它们凭什么能在竞争激烈的 AI 江湖中脱颖而出。
一、Qwen3-Embedding:文本向量化的超级引擎
1.1 技术原理大揭秘
在 AI 的神秘世界里,Qwen3-Embedding 堪称一位神奇的 “翻译官”。它究竟是如何施展魔法,将我们日常使用的文本转化为机器能够理解的向量的呢?这背后离不开精妙的技术原理。
首先,因果注意力机制是其关键技术之一。在处理文本时,它就像一位心思缜密的读者,会按照文本的顺序,逐字逐句地分析每个词与前文之间的关联。比如说,当我们输入 “我喜欢吃苹果,苹果是一种很美味的水果” 这句话,因果注意力机制能够精准捕捉到两个 “苹果” 之间的语义联系,以及它们与整句话其他部分的逻辑关系,从而更准确地理解文本含义。
此外,添加 [EOS] 标记也是一项重要操作。[EOS] 标记就如同文章结尾的句号,告诉模型文本到这里就结束了。这有助于模型在处理文本时,清晰界定每个输入文本的边界,避免信息混淆,进而更高效地完成向量化任务。通过这些技术的协同运作,Qwen3-Embedding 能够将文本转化为一组独特的向量,为后续的各种 AI 应用奠定坚实基础。
1.2 独特功能大放送
Qwen3-Embedding 不仅技术原理精妙,还拥有一系列令人眼前一亮的独特功能。
支持自定义嵌入维度就是其中一大亮点。这意味着开发者可以根据自己的实际需求,灵活调整嵌入维度的大小。比如,在一些对精度要求极高的医学文献检索场景中,开发者可以增大嵌入维度,让模型能够捕捉到文本中更细微的语义差异,从而提高检索的准确性;而在一些对计算资源有限制的移动应用中,开发者则可以适当减小嵌入维度,在保证一定性能的前提下,降低计算成本。
指令感知功能更是让 Qwen3-Embedding 如虎添翼。它能够理解用户输入的指令,根据不同的指令进行针对性的文本向量化处理。例如,当用户输入 “提取这段文本中的关键信息并转化为向量” 的指令时,模型会迅速识别并按照指令要求,重点提取文本中的关键内容,然后生成与之对应的向量,大大提高了处理效率和结果的实用性。
多语言支持也是 Qwen3-Embedding 的一大优势。在全球化日益加深的今天,不同语言之间的信息交流愈发频繁。Qwen3-Embedding 能够轻松应对119种语言的文本向量化任务,无论是英语、中文、日语还是其他语言,它都能一视同仁,准确地将其转化为向量。这使得它在跨语言信息检索、多语言情感分析等领域具有广阔的应用前景。
1.3 性能表现超亮眼
Qwen3-Embedding 的实力可不仅仅体现在技术和功能上,其在各种测试中的性能表现更是让人惊艳不已。
在 MTEB 多语言排行榜这个极具权威性的测试平台上,Qwen3-Embedding 凭借出色的表现,在众多参赛模型中脱颖而出,取得了令人瞩目的成绩。与其他知名模型相比,它在多项关键指标上都实现了超越。比如在文本检索的准确率方面,Qwen3-Embedding 比同类型模型高出了 [X]%,这意味着在海量文本中进行检索时,它能够更精准地找到用户所需的信息,大大提高了检索效率和质量。
在语义相似度计算任务中,Qwen3-Embedding 同样表现出色。它能够更准确地判断两段文本在语义上的相似程度,为诸如文本分类、信息推荐等应用提供了更可靠的依据。这些优异的性能表现,充分证明了 Qwen3-Embedding 在文本向量化领域的领先地位,也让它成为了众多开发者的首选模型。
1.4 应用场景超广泛
强大的性能和丰富的功能,使得 Qwen3-Embedding 在众多领域都有着广泛的应用。
在文档检索领域,它就像一位高效的图书管理员。当我们需要在大量文档中查找特定信息时,只需要输入相关关键词,Qwen3-Embedding 就能迅速将这些关键词转化为向量,然后与文档库中的向量进行匹配,快速准确地找到与之相关的文档。无论是学术论文检索、企业内部文档管理还是法律条文查询,它都能大显身手。
在 RAG(检索增强生成)场景中,Qwen3-Embedding 同样发挥着重要作用。它能够从海量文本中检索出与用户问题相关的信息,并将这些信息转化为向量提供给生成模型,帮助生成模型生成更准确、更丰富的回答。这大大提高了生成内容的质量和可靠性,让 AI 与用户的交互更加自然流畅。
此外,在文本分类、情感分析和代码搜索等领域,Qwen3-Embedding 也都有着出色的表现。在文本分类中,它能够根据文本的向量特征,准确判断文本所属的类别;在情感分析中,它可以识别出文本中蕴含的情感倾向,是积极、消极还是中性;在代码搜索中,它能够帮助开发者快速找到所需的代码片段,提高开发效率。可以说,Qwen3-Embedding 已经成为了推动 AI 应用发展的重要力量。
二、Qwen3 Reranker:文本排序的神奇魔法师
2.1 工作机制全解析
Qwen3 Reranker 就像是一位心思细腻的 “评委”,专门负责对文本进行排序。它的工作机制充满了智慧,当接收文本对输入时,会利用独特的单塔结构,将这对文本视为一个紧密相连的整体。比如说,当用户输入一个查询问题和一系列候选文档时,Qwen3 Reranker 会把查询问题和每一个候选文档分别组合成文本对。然后,它会深入分析这些文本对,就像在仔细阅读一篇文章,理解其中的每一个细节。
在这个过程中,通过大规模模型的对话式模板,Qwen3 Reranker 将看似复杂的相似性评估巧妙地转换为二分类任务。它会根据输入的指令、查询内容以及文档信息,认真判断文档是否能够满足查询的需求。如果它认为文档与查询高度相关,就会给出一个较高的相关性得分;反之,如果觉得两者关联性不大,得分就会较低。通过这样的方式,Qwen3 Reranker 能够对所有候选文档进行准确排序,将最符合用户需求的文档优先呈现出来,大大提高了信息检索的效率和准确性。
2.2 强大能力秀一秀
Qwen3 Reranker 的实力可不是吹的,在各种测试中都展现出了令人惊叹的强大能力。
在多语言检索任务这个大舞台上,Qwen3 Reranker 的 8B 版本凭借出色的发挥,获得了 69.02 的优异成绩。这一成绩在众多参与测试的模型中脱颖而出,充分证明了它在处理多语言文本排序时的卓越能力。无论是英语、法语、德语还是其他语言的文本,它都能准确地判断其与查询的相关性,进行合理排序。
在中文检索任务中,Qwen3 Reranker 更是表现得淋漓尽致,得分高达 77.45。它对中文语义的理解十分深刻,能够精准把握中文文本中的细微差别和隐含信息。当用户在海量的中文文档中进行检索时,Qwen3 Reranker 能够迅速找到最相关的内容,为用户提供高质量的检索结果。
在英文检索任务方面,Qwen3 Reranker 也毫不逊色,取得了 69.76 的好成绩。它对英文文本的处理能力同样出色,无论是学术论文、新闻报道还是小说散文,都能快速准确地进行排序,满足用户在不同领域的检索需求。这些亮眼的成绩,让 Qwen3 Reranker 在文本排序领域稳稳地占据了一席之地,成为了众多开发者信赖的强大工具。
2.3 应用领域真不少
Qwen3 Reranker 强大的文本排序能力,使其在众多领域都有着广泛的应用。
在搜索引擎领域,它就像是一位高效的导航员。当用户在搜索引擎中输入关键词进行搜索时,Qwen3 Reranker 能够迅速对搜索结果进行排序,将最相关、最有价值的网页排在前面。这样一来,用户就能在最短的时间内找到自己需要的信息,大大提高了搜索体验。无论是日常的生活信息查询,还是专业的学术研究资料检索,Qwen3 Reranker 都能让搜索引擎的性能得到显著提升。
在问答系统中,Qwen3 Reranker 同样发挥着重要作用。当用户提出问题时,问答系统会从大量的知识库中搜索相关答案,而 Qwen3 Reranker 则负责对这些答案进行排序。它会根据答案与问题的相关性、准确性等因素,将最优质的答案优先呈现给用户,让用户能够得到满意的答复。这使得问答系统的回答更加精准、高效,增强了用户与系统之间的交互效果。
在推荐系统里,Qwen3 Reranker 也能大显身手。它可以根据用户的兴趣偏好和历史行为,对推荐内容进行排序。比如在电商推荐系统中,它能够将用户可能感兴趣的商品排在前面,提高用户的购买转化率;在新闻推荐系统中,它能把用户关注的新闻资讯优先展示,提升用户的阅读体验。通过 Qwen3 Reranker 的助力,推荐系统能够更加精准地满足用户需求,为用户提供个性化的推荐服务。
三、两者携手,打造文本处理梦幻组合
Qwen3-Embedding 和 Qwen3 Reranker 这两位 “明星选手”,单独拿出来,各自在文本向量化和文本排序领域大放异彩。但当它们携手合作时,更是能产生 1+1>2 的神奇效果,堪称文本处理界的梦幻组合 。
在 RAG 系统这个大舞台上,它们的配合堪称默契十足。当用户输入一个问题时,Qwen3-Embedding 就像一位行动敏捷的先锋,迅速将问题转化为向量,然后在海量的文档库中进行初步检索。它会利用自己强大的向量化能力,从文档库中筛选出一批与问题可能相关的候选文档,这些候选文档就像是被初步入围的 “选手”,等待着进一步的筛选。
紧接着,Qwen3 Reranker 就闪亮登场了。它就像是一位专业且严格的评委,对 Qwen3-Embedding 筛选出的候选文档进行深入分析和评估。它会仔细判断每一篇候选文档与问题的相关性,通过独特的单塔结构和复杂的算法,为每篇文档打出一个相关性得分。然后,根据这些得分,Qwen3 Reranker 会对候选文档进行重新排序,将最相关、最能回答用户问题的文档排在前面。这样一来,用户最终得到的检索结果就是经过层层筛选、最优质的内容,大大提高了信息的准确性和可用性。
它们的合作就像是一场精心编排的舞蹈,Qwen3-Embedding 负责开场的 “热身”,快速筛选出可能的选项;Qwen3 Reranker 则负责最后的 “高潮”,精准地挑选出最符合需求的答案。这种紧密的配合,让它们在各种文本处理场景中都能发挥出最大的效能,为用户提供更加高效、准确的服务。
四、模型评估
4.1 对模型进行重新排名的评估结果
Model | Param 参数 | MTEB-R | CMTEB-R | MMTEB-R | MLDR | MTEB-Code MTEB 代码 | FollowIR 跟随 IR |
Qwen3-Embedding-0.6B Qwen3-嵌入-0.6B | 0.6B | 61.82 | 71.02 | 64.64 | 50.26 | 75.41 | 5.09 |
Jina-multilingual-reranker-v2-base | 0.3B | 58.22 | 63.37 | 63.73 | 39.66 | 58.98 | -0.68 |
gte-multilingual-reranker-base | 0.3B | 59.51 | 74.08 | 59.44 | 66.33 | 54.18 | -1.64 |
BGE-reranker-v2-m3 BGE-重新排名器-v2-m3 | 0.6B | 57.03 | 72.16 | 58.36 | 59.51 | 41.38 | -0.01 |
Qwen3-Reranker-0.6B | 0.6B | 65.8 | 71.31 | 66.36 | 67.28 | 73.42 | 5.41 |
Qwen3-Reranker-4B | 4B | 69.76 | 75.94 | 72.74 | 69.97 | 81.2 | 14.84 |
Qwen3-Reranker-8B | 8B | 69.02 | 77.45 | 72.94 | 70.19 | 81.22 | 8.05 |
使用 MTEB(eng, v2)、MTEB(cmn, v1)、MTEB(多语言)和 MTEB(代码)的文本检索子集,它们表示为 MTEB-R、CMTEB-R、MMTEB-R 和 MTEB-Code。
所有分数都是基于密集嵌入模型 Qwen3-Embedding-0.6B 检索到的前 100 个候选者进行的运行。
4.2 Model Overview: 模型概述 :
Model Type 型号类型 | Models 模型 | Size 大小 | Layers 层 | Sequence Length 序列长度 | Embedding Dimension 嵌入维度 | MRL Support MRL 支持 | Instruction Aware 指令感知 |
Text Embedding 文本嵌入 | Qwen3-Embedding-0.6B Qwen3-嵌入-0.6B | 0.6B | 28 | 32K | 1024 | Yes 是的 | Yes 是的 |
Qwen3-Embedding-4B Qwen3-嵌入-4B | 4B | 36 | 32K | 2560 | Yes 是的 | Yes 是的 | |
Qwen3-Embedding-8B Qwen3-嵌入-8B | 8B | 36 | 32K | 4096 | Yes 是的 | Yes 是的 | |
Text Reranking 文本重新排名 | Qwen3-Reranker-0.6B | 0.6B | 28 | 32K | - | - | Yes 是的 |
Qwen3-Reranker-4B | 4B | 36 | 32K | - | - | Yes 是的 | |
Qwen3-Reranker-8B | 8B | 36 | 32K | - | - | Yes 是的 |
注意: “MRL 支持”表示嵌入模型是否支持最终嵌入的自定义尺寸。“Instruction Aware” 表示 embedding 或 reranking 模型是否支持根据不同的任务自定义输入指令。
五、模型架构
在模型架构上,Embedding模型和Reranker模型分别采用了双塔结构和单塔结构的设计,通过 LoRA 微调,最大限度保留并增强了基础模型的文本理解能力。
-
Embedding 模型:接收单段文本作为输入,取模型最后一层
[EOS]
标记对应的隐藏状态向量,作为输入文本的语义表示。 -
Reranker 模型:接收文本对(例如用户查询与候选文档)作为输入,利用单塔结构计算并输出两个文本的相关性得分。
六、模型训练
Qwen3-Embedding 的训练采用了一套系统化的多阶段流程,融合了弱监督预训练、高质量监督微调和模型融合策略,结合创新的数据合成与架构设计,显著提升了模型在文本表征和语义检索任务中的性能。以下是其核心训练方法的详细解析:
6.1 多阶段训练流程
1. 弱监督预训练(大规模对比学习)
-
数据合成:
基于 Qwen3-32B 指令模型动态生成 1.5亿个多语言文本对,涵盖检索、分类、语义相似度(STS)等任务,支持119种自然语言及主流编程语言(如Python、Java)。这一过程突破了传统依赖开源论坛数据的限制,实现了高质量弱监督数据的高效生成。
-
训练目标:
采用改进的 对比损失函数(InfoNCE框架),通过负采样策略学习文本间的语义关系,初步构建模型的泛化能力。
2. 监督微调(高质量数据精炼)
-
数据筛选:
从合成数据中筛选 1200万个高质量文本对(余弦相似度>0.7),确保标注数据的可靠性。
-
任务优化:
针对下游任务(如检索、排序)进行监督训练,强化模型在特定场景的语义对齐能力。例如,在医疗文献检索任务中,模型相关性得分提升34%。
3. 模型融合(提升鲁棒性)
-
技术方法:
使用 球面线性插值(SLERP) 融合多个微调阶段的模型检查点,综合不同模型的优势,显著提升泛化性和抗干扰能力。
-
效果验证:
未融合的模型性能明显下降,融合后的小规模模型(0.6B)性能接近Gemini等商业模型。
6.2 关键技术亮点
1. 基础模型与架构设计
-
基座继承:基于 Qwen3 基础模型,采用 双编码器架构,独立处理查询与文档,生成高精度语义向量。
-
长文本优化:集成 双块注意力机制(Dual Chunk Attention) 和 RoPE位置编码,支持 32K tokens长上下文处理,适用于法律、科研等长文档场景。
2. 指令微调与灵活性
-
指令适配:支持用户自定义指令模板(如“按病例相关性排序”),在特定任务中性能提升3%-5%。
-
维度压缩:允许调整向量维度(如1280维→256维),推理成本降低40%,精度损失仅2.3%。
3. 多语言与跨模态支持
-
语言覆盖:训练数据涵盖119种语言,实现跨语言语义匹配(如“中文查询→英文文档”)。
-
代码检索能力:在 MTEB-Code 任务中排名第一,支持代码片段语义检索与跨语言函数分析。
6.3 训练数据与资源规模
阶段 | 数据规模 | 技术目标 | 关键成果 |
---|---|---|---|
弱监督预训练 | 1.5亿合成文本对 | 多语言泛化能力构建 | 覆盖119种语言与编程任务 |
监督微调 | 1200万高质量文本对 | 任务特异性优化 | 医疗检索相关性提升34% |
模型融合 | 多个检查点集成 | 鲁棒性与泛化增强 | 小模型(0.6B)性能媲美商业模型 |
6.4 总结
Qwen3-Embedding 的训练通过 “合成数据生成→高质量精炼→模型融合” 的三阶段框架,结合双编码器架构与指令微调技术,实现了多语言、长文本、高泛化性的语义表征能力。其开源的 0.6B/4B/8B全规格模型(Apache 2.0协议)及阿里云API服务,大幅降低了企业落地高精度检索系统的门槛。开发者可通过Hugging Face或ModelScope快速部署。
七、上手实操,开启模型体验之旅
是不是已经迫不及待想要亲自体验一下这两个模型的魅力啦?别担心,阿里已经贴心地为我们在多个平台开源了这两个模型,让我们能够轻松上手。
在 ModelScope 平台,你可以通过这个链接(https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48)找到 Qwen3-Embedding,通过这个链接(https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f)找到 Qwen3 Reranker。
在 Hugging Face 平台,Qwen3-Embedding 的链接为这里(https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f),Qwen3 Reranker 的集合链接是这里 (https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea)。
下面,我就给大家分享一个简单的使用示例,让大家快速感受一下它们的强大功能。以在 Python 中使用 Qwen3-Embedding 进行文本向量化为例,我们可以这样做:
from transformers import AutoTokenizer, AutoModel
import torch
# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen3-Embedding-8B")
model = AutoModel.from_pretrained("qwen/Qwen3-Embedding-8B")
# 待处理的文本
text = "人工智能正在改变我们的生活"
# 对文本进行编码
inputs = tokenizer(text, return_tensors="pt")
# 获取模型输出
with torch.no_grad():
outputs = model(**inputs)
# 提取文本向量
embedding = outputs.last_hidden_state[:, -1, :]
print(embedding)
在这个示例中,我们首先通过AutoTokenizer和AutoModel从预训练模型中加载了 Qwen3-Embedding-8B。然后,我们定义了一个待处理的文本,并使用分词器对其进行编码。接着,将编码后的输入传入模型,获取模型输出。最后,从模型输出中提取文本向量并打印出来。这样,我们就完成了一次简单的文本向量化操作。
对于 Qwen3 Reranker,使用方法也类似。假设我们要对用户查询和候选文档进行相关性排序,可以参考以下示例代码:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen3-Reranker-8B")
model = AutoModelForSequenceClassification.from_pretrained("qwen/Qwen3-Reranker-8B")
# 用户查询
query = "如何提高学习效率"
# 候选文档列表
documents = ["多做练习题可以提高学习成绩", "制定合理的学习计划有助于提高学习效率", "保持良好的心态对学习很重要"]
# 对查询和文档进行编码
input_pairs = []
for doc in documents:
input_pair = tokenizer(query, doc, return_tensors="pt")
input_pairs.append(input_pair)
# 获取模型输出
scores = []
for input_pair in input_pairs:
with torch.no_grad():
outputs = model(**input_pair)
logits = outputs.logits
score = torch.softmax(logits, dim=1)[0][1].item()
scores.append(score)
# 根据得分对文档进行排序
sorted_documents = [doc for _, doc in sorted(zip(scores, documents), key=lambda x: x[0], reverse=True)]
print(sorted_documents)
在这个示例中,我们加载了 Qwen3 Reranker-8B 模型和分词器。然后定义了用户查询和候选文档列表,将查询和每个候选文档组成文本对,并进行编码。接着,将编码后的文本对传入模型,获取模型输出的相关性得分。最后,根据得分对候选文档进行排序,并打印出排序后的文档列表。通过这个简单的示例,我们就实现了使用 Qwen3 Reranker 进行文本排序的功能。
八、未来展望,模型发展新征程
展望未来,Qwen3-Embedding 和 Qwen3 Reranker 有着无限的潜力和广阔的发展空间 。
在教育领域,它们有望发挥重要作用。随着在线教育的蓬勃发展,学生和教师对于高效的学习资源检索和智能问答系统的需求越来越大。Qwen3-Embedding 可以将海量的教育资料转化为向量,建立起庞大的知识图谱;Qwen3 Reranker 则能根据学生的问题,从知识图谱中快速筛选出最相关的学习资料和解答,为学生提供个性化的学习支持。例如,当学生在学习数学时遇到难题,通过这两个模型的协作,能够迅速找到相关的解题思路、例题讲解等资料,帮助学生更好地理解和掌握知识。
在金融领域,这两个模型也将大显身手。金融行业每天都会产生大量的数据,如市场行情、投资报告、客户信息等。Qwen3-Embedding 可以对这些数据进行向量化处理,挖掘其中隐藏的信息和规律;Qwen3 Reranker 则能根据投资者的需求,对金融数据进行排序和分析,提供精准的投资建议。比如,在进行股票投资时,模型可以根据市场数据和投资者的风险偏好,筛选出最具潜力的股票,并提供详细的分析报告。
随着物联网技术的不断发展,智能设备之间的交互和数据处理需求也日益增长。Qwen3-Embedding 和 Qwen3 Reranker 可以应用于智能家居、智能交通等领域,实现设备之间的智能对话和数据的高效处理。在智能家居系统中,用户通过语音指令控制家电设备时,模型可以准确理解用户的需求,并对相关设备进行智能排序和控制,为用户提供更加便捷、舒适的生活体验。
相信在未来,随着技术的不断进步和应用场景的不断拓展,Qwen3-Embedding 和 Qwen3 Reranker 将不断进化,为我们的生活带来更多的惊喜和改变。让我们一起期待它们在 AI 领域创造更多的辉煌 !
互动时刻:一起聊聊
好啦,关于 Qwen3-Embedding 和 Qwen3 Reranker 的精彩内容就分享到这里啦!相信大家对这两个模型已经有了更深入的了解。不知道你们看完之后有什么想法呢?是已经迫不及待想要上手试试,还是对它们的未来应用有独特的见解?又或者在使用过程中遇到了什么有趣的事情,都欢迎在评论区留言分享哦!让我们一起交流讨论,共同见证 AI 技术的飞速发展 !