当前位置：首页 > web >正文

全面指南：Xinference大模型推理框架的部署与使用

web 2025/8/24 7:48:19

全面指南：Xinference大模型推理框架的部署与使用

Xinference（Xorbits Inference）是一个功能强大的分布式推理框架，专为简化各种AI模型的部署和管理而设计。本文将详细介绍Xinference的核心特性、版本演进，并提供多种部署方式的详细指南，包括本地部署、Docker-Compose部署以及分布式集群部署，同时涵盖GPU和CPU环境下的配置差异。最后，我们将通过实际使用教程验证部署结果。

一、Xinference简介与版本演进

Xinference是由Xorbits团队开发的开源推理框架，旨在为研究者和开发者提供简单高效的大模型部署方案。它支持多种模型类型，包括大语言模型(LLM)、语音识别模型、多模态模型等，并提供了丰富的接口和工具链。

核心特性

多模型支持：内置100+预训练模型，涵盖Llama3、ChatGLM、Whisper等主流模型
分布式推理：支持在多台机器上运行vLLM进行高效推理
异构硬件加速：通过ggml同时利用GPU与CPU资源，降低延迟提高吞吐
多种接口：提供RESTful API(兼容OpenAI)、RPC、命令行和Web UI等多种交互方式
开放生态：与LangChain、LlamaIndex、Dify等流行工具无缝集成

版本演进

截至2025年4月，Xinference最新版本为v1.4.1，带来了多项重要更新：

vLLM分布式推理：支持跨机器部署vLLM引擎
SGLang引擎增强：新增视觉模型支持，GPTQ量化推理速度大幅提升
新增模型支持：
- Qwen2.5-VL 32B多模态模型
- Fin-R1金融领域专用模型
- Deepseek-VL2视觉语言模型
功能优化：
- 新增n_worker校验机制
- 优化GPTQ处理，用gptqmodel取代auto-gptq
- Deepseek-V3支持Function Calling

历史版本中，v0.15.x系列主要完善了基础功能，v1.0.0开始引入分布式支持，后续版本持续优化性能和扩展模型库。

二、Xinference部署指南

Xinference支持多种部署方式，可根据硬件条件和应用场景选择最适合的方案。下面将分别介绍本地部署、Docker-Compose部署和分布式集群部署的详细步骤。

1. 本地部署

CPU环境部署

对于仅使用CPU的环境，安装相对简单：

# 安装基础包
pip install "xinference[all]"# 启动服务（指定模型缓存路径）
XINFERENCE_HOME=/path/to/model_cache xinference-local --host 0.0.0.0 --port 9997

如果没有GPU，Xinference会自动使用CPU进行推理，但性能会有所下降。

GPU环境部署

对于NVIDIA GPU环境，需要额外安装CUDA相关依赖：

# 安装带GPU支持的Xinference
pip install "xinference[transformers,vllm,sglang]"# 验证PyTorch CUDA是否可用
python -c "import torch; print(torch.cuda.is_available())"# 启动服务（使用全部GPU）
xinference-local --host 0.0.0.0 --port 9997

如果输出True，则表示PyTorch能正常使用GPU；否则需要重新安装PyTorch的GPU版本。

模型源配置

在国内环境，建议使用ModelScope作为模型源，避免HuggingFace访问问题：

XINFERENCE_MODEL_SRC=modelscope xinference-local --host 0.0.0.0 --port 9997

2. Docker-Compose部署

对于生产环境，推荐使用Docker部署，便于管理和隔离。以下是GPU版本的Docker部署示例：

单节点Docker部署

docker run -d --restart=always --name=xinference \-v /opt/xinference:/opt/xinference \-e XINFERENCE_HOME=/opt/xinference \-e XINFERENCE_MODEL_SRC

查看全文

http://www.xdnf.cn/news/6560.html

平替BioLegend品牌-FITC 标记 CD11c 抗体 [N418]，精准识别小鼠树突细胞

[Harmony]大文件持久化

Spring-messaging-MessageHandler接口实现类ServiceActivatingHandler

Pangle出海指南：如何实现ROI最大化？

Spring Boot多数据源配置的陷阱与终极解决方案

在 Vue 中使用 Three.js 渲染 GLB 格式模型

antd 主题色定制

C++（12）：using声明

智能包装机控制终端技术方案：基于EFISH-SCB-RK3588/SAIL-RK3588的全场景国产化替代解析

Console Importer浏览器插件的编译及制作成.crx浏览器插件的步骤

electron进程通信

128.在 Vue 3 中使用 OpenLayers 实现绘制矩形截图并保存地图区域

关于xammp数据库打开不了，但是日志没错误的问题解决以及其数据库的备份

如何利用 Python 爬虫按关键字搜索京东商品：实战指南

Docker 安装 MySQL8

OpenCV 图像直方图：从原理剖析到实战应用

linux系统服务

Qt信号槽机制与UI设计完全指南：从基础原理到实战应用

【笔试训练】简单写词|dd爱框框|除2！

Cursor无法使用C/C++调试的解决办法

Ubuntu使用Docker搭建SonarQube企业版（含破解方法）

Hugging Face 中 LeRobot 使用的入门指南

LangChain4j +DeepSeek大模型应用开发——10 检索增强生成 RAG

Ubuntu下配置VScode出现#include错误请更新includePath的解决方法

Java类一文分解:JavaBean,工具类,测试类的深度剖析

汽车零部件冲压车间MES一体机解决方案

卷积神经网络和深度神经网络的区别是什么？

数据结构与算法-线性表-单链表（Linked List）

OSCP备战-kioptrix 2014详细步骤

第三十一节：直方图处理-直方图反向投影