当前位置：首页 > news >正文

技术速递｜新手指南：如何在 Foundry Local 中使用自定义模型

news 2025/8/30 7:34:32

作者：卢建晖 - 微软高级云技术布道师

排版：Alan Wang

什么是 Foundry Local？

Foundry Local 是一款用户友好的工具，能够让你在 Windows 或 Mac 电脑上直接运行小型 AI 语言模型。你可以把它理解为在本地运行的个人版 ChatGPT，不需要互联网连接，也无需将数据发送到外部服务器。

目前，Foundry Local 已经很好地支持多个流行的模型系列：

Phi 模型（微软推出的小而强大的模型）
Qwen 模型（阿里推出的多语言模型）
DeepSeek 模型（高效推理模型）

在这里插入图片描述
在本教程中，我们将一步一步学习如何设置 Qwen3-0.6B 模型。即使你是 AI 新手也不用担心——我们会在过程中把一切都讲清楚！

为什么我们需要转换 AI 模型？

从 AI Toolkit 模型目录将 gpt-oss-20b 部署到本地环境

当你从 Hugging Face（可以把它理解为 AI 模型的 GitHub）这类网站下载 AI 模型时，它们通常是 PyTorch 格式。PyTorch 在训练模型时非常好用，但并不是在个人电脑上运行的最佳格式。

为了让这些模型在你的笔记本或台式机上更高效地运行，我们需要：

格式转换 —— 把它转成电脑能更快运行的格式
模型压缩 —— 让模型更小，占用更少的内存和存储空间

在转换时，我们主要会用到两种格式：

GGUF vs ONNX：该选哪种格式？

可以把它们理解为电脑能理解的两种不同“语言”。既然我们要运行的是小型语言模型（比如 Qwen3-0.6B），那我们来看看哪种更适合你的需求。

GGUF（GPT-Generated Unified Format）

最适合：基础电脑、简单环境，或者想要极简体验的人

优点：

💾 内存超省 —— 通过智能压缩大幅减少 RAM 占用
📁 单文件 —— 所有内容都在一个文件里（不需要复杂的文件夹结构）
🛠️ 工具简单 —— 兼容 llama.cpp 等常见工具
⚡ 上手快 —— 配置要求更少

缺点：

📏 体积影响 —— 对小模型来说，额外的“开销”比例更大
🔒 灵活性有限 —— 只能运行特定类型的 AI 模型（基于 transformer 的模型）

ONNX（Open Neural Network Exchange）

最适合：现代电脑、追求最佳性能，或者专业用途

优点：

🔄 兼容性强 —— 支持多种不同类型和结构的 AI 模型
🚀 硬件加速 —— 能利用显卡（GPU）或专用 AI 芯片（NPU），性能大幅提升
🏭 专业级 —— 被广泛应用于企业生产环境
🔧 转换灵活 —— 几乎能从任意训练框架转换过来
📱 移动端友好 —— 在手机和平板上也有很好的支持
⚙️ 智能优化 —— ONNX Runtime 自动帮你提升运行速度

缺点：

📦 结构复杂 —— 需要管理多个文件和文件夹
💾 文件更大 —— 占用更多存储空间
🛠️ 配置更多 —— 需要做一些额外设置才能运行

新手推荐

在本教程中，我们将使用 ONNX，原因是：

✅ 在大多数现代电脑上性能最佳
✅ 之后你可以选择升级到 GPU 加速
✅ 它是业界标准，在大多数 AI 项目中都会遇到
✅ Foundry Local 对 ONNX 模型支持非常好

认识 Microsoft Olive：模型转换小助手

Microsoft Olive 就像一个聪明的助手，帮你完成 AI 模型的转换工作。与其手动执行繁琐的技术步骤，Olive 会自动化完成并确保一切正确无误。

Olive 的特别之处：

兼容各种电脑 —— 不论是基础笔记本，还是带强大显卡的高配主机
自动化操作 —— 无需学习复杂的转换命令
多种压缩选项 —— 可以用不同方式缩小模型（INT4、INT8、FP16 —— 这些术语不用担心，现在知道就行）
良好兼容性 —— 能和你可能使用的其他 AI 工具无缝配合

逐步指南：一起来转换你的模型

在这里插入图片描述
别担心，即使你从来没有做过这个操作——我们也会一步一步仔细讲解！

步骤 1：安装所需工具

首先，我们需要安装一些软件工具。你可以把它理解为在手机上下载应用程序——每个工具都有特定的作用，用来帮助我们完成模型转换。

打开你的终端（Windows 上是命令提示符，Mac 上是 Terminal），然后依次运行以下命令：

# This updates the main AI library to the latest version
pip install transformers -U
# This installs Microsoft Olive (our conversion helper)
pip install git+https://github.com/microsoft/Olive.git
# This downloads and installs additional AI tools
git clone https://github.com/microsoft/onnxruntime-genai
cd onnxruntime-genai && python build.py --config Release
pip install {Your build release path}/onnxruntime_genai-0.9.0.dev0-cp311-cp311-linux_x86_64.whl

📝 重要提示：你还需要 CMake 3.31 或更高版本。如果没有，可以从 cmake.org 下载。

步骤 2：最简单的方法 —— 一条命令完成转换

当一切安装完成后，转换模型其实非常简单！只需要运行下面这条命令即可（注意：把 {Your Qwen3-0.6B Path} 替换为你下载模型的实际路径）：

olive auto-opt \--model_name_or_path {Your Qwen3-0.6B Path} \--device cpu \--provider CPUExecutionProvider \--use_model_builder \--precision int4 \--output_path models/Qwen3-0.6B/onnx \--log_level 1

这条命令是做什么的？

--device cpu 表示我们要针对电脑的处理器进行优化
--precision int4 让模型更小（大约能减少 75% 的体积！）
--output_path 告诉 Olive 要把转换好的模型保存到哪里

💡 小提示：如果你有性能强大的显卡，可以把 cpu 改成 cuda，这样可能会获得更好的性能。

步骤 3：进阶方法 —— 使用配置文件

如果你想要更多自定义控制，可以创建一个 配置文件。你可以把它理解为一份“食谱”，用来告诉 Olive 具体要如何转换模型。

新建一个名为 conversion_config.json 的文件，并写入以下内容：

{"input_model": {"type": "HfModel","model_path": "Qwen/Qwen3-0.6B","task": "text-generation"},"systems": {"local_system": {"type": "LocalSystem","accelerators": [{"execution_providers": ["CPUExecutionProvider"]}]}},"passes": {"builder": {"type": "ModelBuilder","config": {"precision": "int4"}}},"host": "local_system","target": "local_system","cache_dir": "cache","output_dir": "model/output/Qwen3-0.6B-ONNX"
}

然后运行这条命令：

olive run --config ./conversion_config.json

🔐 开始之前：如果这是你第一次从 Hugging Face 下载模型，你需要先登录：

huggingface-cli login

系统会要求你输入 Hugging Face 的 token（可以在 Hugging Face 官网免费获取）。

在 Foundry Local 中设置转换后的模型

很好！现在你已经有了一个转换好的模型，接下来我们把它运行在 Foundry Local 中。可以把这个过程理解为在电脑上安装一个新应用。

你需要

✅ 已经在电脑上安装好 Foundry Local
✅ 通过前面步骤得到的 ONNX 转换模型
✅ 几分钟时间来完成设置

开始操作

首先，我们需要进入 Foundry Local 存放模型的目录：

foundry cache cd ./models/

这条命令会带你进入“模型文件夹” —— 你可以把它理解为 AI 模型的应用商店。

步骤 1：创建聊天模板

AI 模型需要知道如何组织对话格式，这就像教它们聊天的“语法规则”。

新建一个名为 inference_model.json 的文件，并写入以下内容：

{"Name": "Qwen3-0.6b-cpu","PromptTemplate": {"system": "<|im_start|>system\n{Content}<|im_end|>","user": "<|im_start|>user\n/think{Content}<|im_end|>","assistant": "<|im_start|>assistant\n{Content}<|im_end|>","prompt": "<|im_start|>user\n/think{Content}<|im_end|>\n<|im_start|>assistant"}
}