当前位置: 首页 > news >正文

LLMs之Agent:GLM-4.5的简介、安装和使用方法、案例应用之详细攻略

LLMs之Agent:GLM-4.5的简介、安装和使用方法、案例应用之详细攻略

目录

GLM-4.5的简介

1、GLM-4.5的特点

2、模型架构与训练

GLM-4.5的安装和使用方法

1、安装

2、使用方法

快速上手:

GLM-4.5的案例应用

1. PPT 模式(一键生成专业级幻灯片)

2. 创意模式(多模态内容生成)

3. 全栈开发与智能体应用

4. 科研与办公场景


GLM-4.5的简介

2025年7月29日,GLM-4.5 是智谱AI发布的开源大型语言模型,专为智能代理而设计。该系列模型包含 GLM-4.5 和 GLM-4.5-Air 两个版本。

  • GLM-4.5 拥有 3550 亿总参数,其中 320 亿为激活参数;
  • GLM-4.5-Air 采用更紧凑的设计,总参数为 1060 亿,激活参数为 120 亿。

GLM-4.5 模型统一了推理、编码和智能代理能力,以满足智能代理应用程序的复杂需求。

国内用户:https://docs.bigmodel.cn/cn/guide/develop/claude

海外用户:Claude Code - Z.AI

体验地址

Chat with Z.ai - Free AI for Presentations, Writing & Coding

智谱清言

Github 仓库:https://github.com/zai-org/GLM-4.5

1、GLM-4.5的特点

>> 混合推理模型: GLM-4.5 和 GLM-4.5-Air 都是混合推理模型,提供两种模式:用于复杂推理和工具使用的“思考模式”以及用于即时响应的“非思考模式”。

>> 开源和商业友好: 基础模型、混合推理模型以及 FP8 版本的混合推理模型均已开源,采用 MIT 开源许可证,可用于商业用途和二次开发。

>> 多种精度版本: 提供 BF16 和 FP8 两种精度版本。

>> 支持长上下文: 在特定配置下,模型可充分利用其 128K 上下文长度。

>> 综合性能 SOTA:在 12 项评测基准(涵盖推理、代码、智能体)中,综合得分全球第三、国产第一、开源第一。代码能力(SWE-bench)达到性能/参数比帕累托前沿。在 12 个行业标准基准的综合评估中,GLM-4.5 取得了 63.2 的优异成绩,在所有专有和开源模型中排名第三。GLM-4.5-Air 在保持卓越效率的同时,也取得了 59.8 的有竞争力的结果。

>> 高效推理生成速度最高 100 tokens/秒(高速版)。API 成本低至 输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。

2、模型架构与训练

混合专家(MoE)架构

GLM-4.5:总参数量 3550 亿,激活参数 320 亿。

GLM-4.5-Air:总参数量 1060 亿,激活参数 120 亿。

采用“瘦高”结构(减少宽度、增加深度),提升推理效率。

训练流程

* 预训练:15 万亿 token 通用数据。

* 垂直领域训练:在代码、推理、智能体领域的 8 万亿 token 数据上针对性训练。

* 强化学习优化:通过 slime 框架增强推理、代码与智能体能力(支持异步训练,解决长序列任务瓶颈)。

关键技术

* 分组查询注意力(GQA) + 部分旋转位置编码(Partial RoPE)。

* Muon 优化器:提升训练收敛效率。

* 多令牌预测(MTP)层:支持推测解码,加速推理。

核心能力突破

* 三合一原生融合:首次在单一模型中统一 推理、编码 和 智能体能力。

* 双模式设计

思考模式:复杂推理/工具调用(如代码生成、数据分析)。

非思考模式:即时响应对话。

* 工具调用与智能体

原生支持函数调用(128K 上下文)。

兼容主流框架(Claude Code、Roo Code)。

工具调用成功率 90.6%(实测领先竞品)。

强化学习与优化

* slime 框架:专为长序列智能体任务设计,支持混合精度训练(FP8 生成 + BF16 训练)。实现环境交互与训练解耦,最大化 GPU 利用率。

* 后训练策略:

监督微调 + 课程学习强化(基于难度分级)。

专家蒸馏整合多领域能力。

GLM-4.5的安装和使用方法

1、安装

模型下载:

可以通过 Hugging Face 或 ModelScope 下载模型。

提供的模型包括 GLM-4.5、GLM-4.5-Air 及其 FP8 和 Base 版本。

系统要求:

推理: 页面提供了 "full-featured" 模型推理的最低和推荐配置,包括 GPU 类型和数量、测试框架等。

所有模型使用 MTP 层并指定 --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4 以确保有竞争力的推理速度。

不使用 cpu-offload 参数。

推理批处理大小不超过 8。

全部在原生支持 FP8 推理的设备上执行,确保权重和缓存均为 FP8 格式。

服务器内存必须超过 1T 以确保正常模型加载和运行。

微调: 页面提供了使用 Llama Factory 和 Swift 进行微调的配置,包括 GPU 类型和数量、策略、每 GPU 的批处理大小。

2、使用方法

平台:智谱清言网页版(chatglm.cn 或 APP)。

API:开放平台 BigModel.cn,支持一键兼容 Claude Code。

开源:模型权重已在 Hugging Face 和 ModelScope 开源(MIT License)。

快速上手:

安装 requirements.txt 中指定的必需软件包:pip install -r requirements.txt。

transformers: 参考 inference 文件夹中的 trans_infer_cli.py 代码。

vLLM: 使用以下代码启动 BF16 和 FP8 版本:

vllm serve zai-org/GLM-4.5-Air \--tensor-parallel-size 8 \--tool-call-parser glm45 \--reasoning-parser glm45 \--enable-auto-tool-choice \--served-model-name glm-4.5-air

如果使用 8x H100 GPU 并且在运行 GLM-4.5 模型时遇到内存不足的问题,则需要 --cpu-offload-gb 16(仅适用于 vLLM)。

如果遇到 flash infer 问题,请使用 VLLM_ATTENTION_BACKEND=XFORMERS 作为临时替代方案。 还可以指定 TORCH_CUDA_ARCH_LIST='9.0+PTX' 以使用 flash infer(不同的 GPU 具有不同的 TORCH_CUDA_ARCH_LIST 值,请相应检查)。

SGLang:

BF16:

python3 -m sglang.launch_server \--model-path zai-org/GLM-4.5-Air \--tp-size 8 \--tool-call-parser glm45  \--reasoning-parser glm45 \--speculative-algorithm EAGLE \--speculative-num-steps 3 \--speculative-eagle-topk 1 \--speculative-num-draft-tokens 4 \--mem-fraction-static 0.7 \--served-model-name glm-4.5-air \--host 0.0.0.0 \--port 8000

FP8:

python3 -m sglang.launch_server \--model-path zai-org/GLM-4.5-Air-FP8 \--tp-size 4 \--tool-call-parser glm45  \--reasoning-parser glm45  \--speculative-algorithm EAGLE \--speculative-num-steps 3  \--speculative-eagle-topk 1  \--speculative-num-draft-tokens 4 \--mem-fraction-static 0.7 \--disable-shared-experts-fusion \--served-model-name glm-4.5-air-fp8 \--host 0.0.0.0 \--port 8000

请求参数说明:

使用 vLLM 和 SGLang 时,默认情况下启用思考模式。 如果要禁用思考开关,则需要添加 extra_body={"chat_template_kwargs": {"enable_thinking": False}} 参数。

两者都支持工具调用。 请使用 OpenAI 样式的工具描述格式进行调用。

有关特定代码,请参考 inference 文件夹中的 api_request.py。

GLM-4.5的案例应用

1. PPT 模式(一键生成专业级幻灯片)
  • 案例

    • 《独立像素风游戏安利》:像素风设计 + 马卡龙配色,页面布局仿游戏分镜。

    • 《洛可可艺术介绍》:中英双语排版,融合古典绘画与现代设计。

    • 《Apple Vision Pro 技术解析》:聚焦空间计算技术与市场前景。

    • 《赛博朋克2077》游戏介绍:未来感科技风配色。

    • 文档转 PPT:直接读取链接生成工作汇报(如财报分析)。

  • 特点:自动搜索资料、配图,以 HTML 实现灵活排版。

2. 创意模式(多模态内容生成)
  • 案例

    • 小红书图文:《布达佩斯大饭店》主题,复刻电影对称构图 + 复古配色。

    • 新闻可视化长图:将文章转化为冷静风格的信息图表(支持多页)。

    • 国风书签:低饱和墨色 + 金墨书写诗句。

    • 交互式网页

      • 塔罗牌模拟器:支持问题输入、抽牌解读、正逆位分析。

      • 情绪漂流瓶社区:海盐蓝 + 暖黄灯光,动态海浪交互设计。

  • 特点:支持海报、长图、网页、卡片等创意载体。

3. 全栈开发与智能体应用
  • 案例

    • 可运行网站

      • 仿谷歌搜索(支持真实搜索功能)。

      • 仿B站(发弹幕)、仿微博(发博文)。

    • 小游戏开发Flappy Bird(含完整交互逻辑)。

    • 工具类应用

      • TODO 看板(拖拽功能 + 搜索)。

      • SVG 动画《语言模型演变史》。

  • 技术支撑:兼容 Claude Code 框架,前后端无缝开发。

4. 科研与办公场景
  • 技术报告:自动生成 Beamer 幻灯片(如《麦克斯韦方程组》)。

  • 跨学科应用

    • 艺术史分析(《洛可可艺术》双语 PPT)。

    • 游戏设计(像素风 PPT + 赛博朋克卡牌生成器)。

  • 企业场景:财报转 PPT、产品技术解析、市场分析。

http://www.xdnf.cn/news/1213309.html

相关文章:

  • 【MySQL学习|黑马笔记|Day3】多表查询(多表关系、内连接、外连接、自连接、联合查询、子查询),事务(简介、操作、四大体系、并发事务问题、事务隔离级别)
  • 智能车辆热管理测试方案——提升效能与保障安全
  • Three.js 与 WebXR:初识 VR/AR 开发
  • 多模通信·数据采集:AORO P9000U三防平板带来定制化解决方案
  • 如何在出售Windows11/10/8/7前彻底清除电脑数据
  • B站 XMCVE Pwn入门课程学习笔记(6)
  • 洛谷刷题7.30
  • C++反射
  • 认识ansible(入门)
  • Javascript 基础总结
  • docker:将cas、tomcat、字体统一打包成docker容器
  • VS Code中如何关闭Github Copilot
  • 技术速递|GitHub Copilot 的 Agent 模式现已全面上线 JetBrains、Eclipse 和 Xcode!
  • 企业级WEB应用服务器TOMCAT
  • 【IDEA】JavaWeb自定义servlet模板
  • 工厂方法模式:从基础到C++实现
  • 华为昇腾NPU卡 文生视频[T2V]大模型WAN2.1模型推理使用
  • Kubernetes资源调优终极指南:从P95识别到精准配置
  • Kong API Gateway的十年进化史
  • Spring Cloud Gateway静态路由实战:Maven多模块高效配置指南
  • ‌CASE WHEN THEN ELSE END‌
  • YOLO-01目标检测基础
  • 【Rust多进程】征服CPU的艺术:Rust多进程实战指南
  • 力扣热题100-------74.搜索二维矩阵
  • SpringBoot 整合 自定义MongoDB
  • Flutter封装模板及最佳实践
  • CVAE 回顾版
  • STM32学习记录--Day3
  • gaussdb demo示例
  • 大语言模型(LLM)技术架构与工程实践:从原理到部署