Qwen3大模型本地部署及Python调用指南
1 简介
阿里开源的Qwen3系列大模型全线发布:
其模型能力,按照官方的介绍,直接对标DeepSeek-R1、o1、o3-mini、Grok-3、Gemini-2.5-Pro等顶级大模型,在代码、数学、通用能力等基准测试中表现十分优异,成为开源大模型领域新的翘楚:
今天的文章中,我们就来介绍如何快速完成对Qwen3系列模型的本地部署,并通过Python
快捷调用模型进行推理。
2 Qwen3系列模型的本地部署
Qwen3系列模型支持常见的各种主流部署工具,如SGLang、vLLM、Ollama、LMStudio、llama.cpp等,我们以其中使用起来最为方便的Ollama为例(注意Ollama版本需要大于等于0.6.6
):
访问Ollama官网中的Qwen3模型主页( https://ollama.com/library/qwen3 ),可以看到众多参数类型的可用模型:
根据你的硬件算力,选择合适参数量的模型及量化版本,我的显卡是4090,显存达到24G,因此最大可运行32B参数量的模型,以Qwen3系列模型中官方着重介绍的MOE模型qwen3:30b-a3b
为例:
-
拉取模型文件
ollama run qwen3:30b-a3b
-
ollama终端中临时运行模型
ollama run qwen3:30b-a3b --verbose
加载qwen3:30b-a3b
模型对应的显存占用情况:
模型推理速度参考:
-
非思考模式
值得一提的是,Qwen3系列模型支持关闭思考模式,我们可以在实际任务中,针对较简单场景省去思考的过程,直接输出内容,降低推理耗时(在输入的问题末尾添加/no_think
即可):
3 通过Python调用本地部署的Qwen3模型
在上文基础上,接下来我们进一步展示如何在Python
中高效调用已部署的本地Qwen3模型:
3.1 常规内容生成及对话任务
最直接的方式,我们可以使用Ollama官方的Python
库来快捷实现常规对话:
-
安装
ollama
库
pip install ollama
-
列出可用模型
-
文本生成任务
-
文本生成任务(关闭思考)
-
对话任务
-
对话任务(流式)
3.2 Agent任务
Qwen3系列模型支持函数调用,我们可以基于它快速开发各种智能体功能,以我常用的pydantic-ai
为例:
-
安装
pydantic-ai
相关最小依赖库
pip install "pydantic-ai-slim[openai]"
-
基于
pydantic-ai
快速构建智能体
在pydantic-ai
中,我们可以直接使用兼容openai
模型的形式,对接已通过Ollama部署的模型,非常的高效方便😉,:
更多参考资料:
-
https://ollama.com/library/qwen3
-
https://github.com/ollama/ollama-python
-
https://ai.pydantic.dev/
-
https://github.com/pydantic/pydantic-ai
以上就是本文的全部内容,欢迎在评论区与我们进行讨论~