LLMs之Agent:GLM-4.5的简介、安装和使用方法、案例应用之详细攻略
LLMs之Agent:GLM-4.5的简介、安装和使用方法、案例应用之详细攻略
目录
GLM-4.5的简介
1、GLM-4.5的特点
2、模型架构与训练
GLM-4.5的安装和使用方法
1、安装
2、使用方法
快速上手:
GLM-4.5的案例应用
1. PPT 模式(一键生成专业级幻灯片)
2. 创意模式(多模态内容生成)
3. 全栈开发与智能体应用
4. 科研与办公场景
GLM-4.5的简介
2025年7月29日,GLM-4.5 是智谱AI发布的开源大型语言模型,专为智能代理而设计。该系列模型包含 GLM-4.5 和 GLM-4.5-Air 两个版本。
- GLM-4.5 拥有 3550 亿总参数,其中 320 亿为激活参数;
- GLM-4.5-Air 采用更紧凑的设计,总参数为 1060 亿,激活参数为 120 亿。
GLM-4.5 模型统一了推理、编码和智能代理能力,以满足智能代理应用程序的复杂需求。
国内用户:https://docs.bigmodel.cn/cn/guide/develop/claude
海外用户:Claude Code - Z.AI
体验地址:
Chat with Z.ai - Free AI for Presentations, Writing & Coding
智谱清言
Github 仓库:https://github.com/zai-org/GLM-4.5
1、GLM-4.5的特点
>> 混合推理模型: GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供两种模式:用于复杂推理和工具使用的“思考模式”以及用于即时响应的“非思考模式”。
>> 开源和商业友好: 基础模型、混合推理模型以及 FP8 版本的混合推理模型均已开源,采用 MIT 开源许可证,可用于商业用途和二次开发。
>> 多种精度版本: 提供 BF16 和 FP8 两种精度版本。
>> 支持长上下文: 在特定配置下,模型可充分利用其 128K 上下文长度。
>> 综合性能 SOTA:在 12 项评测基准(涵盖推理、代码、智能体)中,综合得分全球第三、国产第一、开源第一。代码能力(SWE-bench)达到性能/参数比帕累托前沿。在 12 个行业标准基准的综合评估中,GLM-4.5 取得了 63.2 的优异成绩,在所有专有和开源模型中排名第三。GLM-4.5-Air 在保持卓越效率的同时,也取得了 59.8 的有竞争力的结果。
>> 高效推理:生成速度最高 100 tokens/秒(高速版)。API 成本低至 输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。
2、模型架构与训练
混合专家(MoE)架构 | GLM-4.5:总参数量 3550 亿,激活参数 320 亿。 GLM-4.5-Air:总参数量 1060 亿,激活参数 120 亿。 采用“瘦高”结构(减少宽度、增加深度),提升推理效率。 |
训练流程 | * 预训练:15 万亿 token 通用数据。 * 垂直领域训练:在代码、推理、智能体领域的 8 万亿 token 数据上针对性训练。 * 强化学习优化:通过 slime 框架增强推理、代码与智能体能力(支持异步训练,解决长序列任务瓶颈)。 |
关键技术 | * 分组查询注意力(GQA) + 部分旋转位置编码(Partial RoPE)。 * Muon 优化器:提升训练收敛效率。 * 多令牌预测(MTP)层:支持推测解码,加速推理。 |
核心能力突破 | * 三合一原生融合:首次在单一模型中统一 推理、编码 和 智能体能力。 * 双模式设计: 思考模式:复杂推理/工具调用(如代码生成、数据分析)。 非思考模式:即时响应对话。 * 工具调用与智能体: 原生支持函数调用(128K 上下文)。 兼容主流框架(Claude Code、Roo Code)。 工具调用成功率 90.6%(实测领先竞品)。 |
强化学习与优化 | * slime 框架:专为长序列智能体任务设计,支持混合精度训练(FP8 生成 + BF16 训练)。实现环境交互与训练解耦,最大化 GPU 利用率。 * 后训练策略: 监督微调 + 课程学习强化(基于难度分级)。 专家蒸馏整合多领域能力。 |
GLM-4.5的安装和使用方法
1、安装
模型下载:
可以通过 Hugging Face 或 ModelScope 下载模型。
提供的模型包括 GLM-4.5、GLM-4.5-Air 及其 FP8 和 Base 版本。
系统要求:
推理: 页面提供了 "full-featured" 模型推理的最低和推荐配置,包括 GPU 类型和数量、测试框架等。
所有模型使用 MTP 层并指定 --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4 以确保有竞争力的推理速度。
不使用 cpu-offload 参数。
推理批处理大小不超过 8。
全部在原生支持 FP8 推理的设备上执行,确保权重和缓存均为 FP8 格式。
服务器内存必须超过 1T 以确保正常模型加载和运行。
微调: 页面提供了使用 Llama Factory 和 Swift 进行微调的配置,包括 GPU 类型和数量、策略、每 GPU 的批处理大小。
2、使用方法
平台:智谱清言网页版(chatglm.cn 或 APP)。
API:开放平台 BigModel.cn,支持一键兼容 Claude Code。
开源:模型权重已在 Hugging Face 和 ModelScope 开源(MIT License)。
快速上手:
安装 requirements.txt 中指定的必需软件包:pip install -r requirements.txt。
transformers: 参考 inference 文件夹中的 trans_infer_cli.py 代码。
vLLM: 使用以下代码启动 BF16 和 FP8 版本:
vllm serve zai-org/GLM-4.5-Air \--tensor-parallel-size 8 \--tool-call-parser glm45 \--reasoning-parser glm45 \--enable-auto-tool-choice \--served-model-name glm-4.5-air
如果使用 8x H100 GPU 并且在运行 GLM-4.5 模型时遇到内存不足的问题,则需要 --cpu-offload-gb 16(仅适用于 vLLM)。
如果遇到 flash infer 问题,请使用 VLLM_ATTENTION_BACKEND=XFORMERS 作为临时替代方案。 还可以指定 TORCH_CUDA_ARCH_LIST='9.0+PTX' 以使用 flash infer(不同的 GPU 具有不同的 TORCH_CUDA_ARCH_LIST 值,请相应检查)。
SGLang:
BF16:
python3 -m sglang.launch_server \--model-path zai-org/GLM-4.5-Air \--tp-size 8 \--tool-call-parser glm45 \--reasoning-parser glm45 \--speculative-algorithm EAGLE \--speculative-num-steps 3 \--speculative-eagle-topk 1 \--speculative-num-draft-tokens 4 \--mem-fraction-static 0.7 \--served-model-name glm-4.5-air \--host 0.0.0.0 \--port 8000
FP8:
python3 -m sglang.launch_server \--model-path zai-org/GLM-4.5-Air-FP8 \--tp-size 4 \--tool-call-parser glm45 \--reasoning-parser glm45 \--speculative-algorithm EAGLE \--speculative-num-steps 3 \--speculative-eagle-topk 1 \--speculative-num-draft-tokens 4 \--mem-fraction-static 0.7 \--disable-shared-experts-fusion \--served-model-name glm-4.5-air-fp8 \--host 0.0.0.0 \--port 8000
请求参数说明:
使用 vLLM 和 SGLang 时,默认情况下启用思考模式。 如果要禁用思考开关,则需要添加 extra_body={"chat_template_kwargs": {"enable_thinking": False}} 参数。
两者都支持工具调用。 请使用 OpenAI 样式的工具描述格式进行调用。
有关特定代码,请参考 inference 文件夹中的 api_request.py。
GLM-4.5的案例应用
1. PPT 模式(一键生成专业级幻灯片)
-
案例:
-
《独立像素风游戏安利》:像素风设计 + 马卡龙配色,页面布局仿游戏分镜。
-
《洛可可艺术介绍》:中英双语排版,融合古典绘画与现代设计。
-
《Apple Vision Pro 技术解析》:聚焦空间计算技术与市场前景。
-
《赛博朋克2077》游戏介绍:未来感科技风配色。
-
文档转 PPT:直接读取链接生成工作汇报(如财报分析)。
-
-
特点:自动搜索资料、配图,以 HTML 实现灵活排版。
2. 创意模式(多模态内容生成)
-
案例:
-
小红书图文:《布达佩斯大饭店》主题,复刻电影对称构图 + 复古配色。
-
新闻可视化长图:将文章转化为冷静风格的信息图表(支持多页)。
-
国风书签:低饱和墨色 + 金墨书写诗句。
-
交互式网页:
-
塔罗牌模拟器:支持问题输入、抽牌解读、正逆位分析。
-
情绪漂流瓶社区:海盐蓝 + 暖黄灯光,动态海浪交互设计。
-
-
-
特点:支持海报、长图、网页、卡片等创意载体。
3. 全栈开发与智能体应用
-
案例:
-
可运行网站:
-
仿谷歌搜索(支持真实搜索功能)。
-
仿B站(发弹幕)、仿微博(发博文)。
-
-
小游戏开发:
Flappy Bird
(含完整交互逻辑)。 -
工具类应用:
-
TODO 看板(拖拽功能 + 搜索)。
-
SVG 动画《语言模型演变史》。
-
-
-
技术支撑:兼容 Claude Code 框架,前后端无缝开发。
4. 科研与办公场景
-
技术报告:自动生成 Beamer 幻灯片(如《麦克斯韦方程组》)。
-
跨学科应用:
-
艺术史分析(《洛可可艺术》双语 PPT)。
-
游戏设计(像素风 PPT + 赛博朋克卡牌生成器)。
-
-
企业场景:财报转 PPT、产品技术解析、市场分析。