当前位置: 首页 > web >正文

SGLang + 分布式推理部署DeepSeek671B满血版

部署设备:2×8×A100 80G,两台机器,每台机器8张A100。

模型:deepseek-671B-int8

模型下载地址:https://huggingface.co/meituan/DeepSeek-R1-Block-INT8
模型参考:

1、SGLang Docker部署

github地址:sgl-project/sglang:SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架。

下载 SGLang的docker镜像包,地址:lmsysorg/sglang Tags | Docker Hub,我用的0.4.7这个版本。

docker pull lmsysorg/sglang:v0.4.7-cu124

如果是内网机器,可以将docker镜像打包成.tar文件,传入服务器进行加载即可。

sudo docker load -i sglang_v0.4.7-cu124.tar

2、运行docker镜像

网口号查询,我的设置为ens...p0,大概是这样的。

IP -4 aexport | grep -i socket

在master机器上运行(请将模型放在两台机器的同一位置)

# master
docker run --gpus all \-d \-e GLOO_SOCKET_IFNAME=网口号-e TP_SOCKET_IFNAME=网口号-e NCCL_SOCKET_IFNAME=网口号--shm-size 32g \--network=host \-p 30000:30000 \-v 本地模型地址:/root/.cache/huggingface/deepseek \--name sglang-1 \--it--ipc=host \lmsysorg/sglang:v0.4.7-cu124 \

在cluster机器上运行

#cluster
docker run --gpus all \-d \-e GLOO_SOCKET_IFNAME=网口号-e TP_SOCKET_IFNAME=网口号-e NCCL_SOCKET_IFNAME=网口号--shm-size 32g \--network=host \-p 30000:30000 \-v 本地模型地址:/root/.cache/huggingface/deepseek \--name sglang-2 \--it--ipc=host \lmsysorg/sglang:v0.4.7-cu124 \

3、运行sglang服务

查看docker容器

sudo docker ps -a

在master机器上运行

sudo docker exec -it sglang-1 bash

在cluster机器上运行

sudo docker exec -it sglang-2 bash

在master机器上的docker中运行,记得替换master的IP,如果端口被占用就换个端口:

#master
python3 -m sglang.launch_server \--model /root/.cache/huggingface/deepseek --tp 16 --dist-init-addr \MASTER_IP:5000 --nnodes 2 --node-rank 0 --trust-remote-code --enable-torch-compile --torch-compile-max-bs 8

在cluster机器上的docker中运行,记得替换master的IP,如果端口被占用就换个端口:

#cluster
python3 -m sglang.launch_server \--model /root/.cache/huggingface/deepseek --tp 16 --dist-init-addr \MASTER_IP:5000 --nnodes 2 --node-rank 1 --trust-remote-code --enable-torch-compile --torch-compile-max-bs 8

这样就可以正常运行起来了,一定要注意参数是否正确。

docker额外操作

暂停所有运行的docker

sudo docker stop $(sudo docker ps -q)

删除docker容器

sudo docker rm -f 容器ID

http://www.xdnf.cn/news/16276.html

相关文章:

  • Edwards爱德华泵软件 支持nEXT85和nXDS系列泵,包括nXRi, nRVi和nXLi增强型 nEXT nXDS nXLi
  • YOLO11有效涨点优化:注意力魔改 | 新颖的多尺度卷积注意力(MSCA),即插即用,助力小目标检测
  • 工具分享02 | Python批量文件重命名工具
  • 从零用java实现 小红书 springboot vue uniapp(14) 集成阿里云短信验证码
  • 核心数据结构:DataFrame
  • 征服 Linux 网络:核心服务与实战解析
  • 从指标定义到AI执行流:衡石SENSE 6.0的BI PaaS如何重构ISV分析链路
  • day46.通道注意力
  • jina-embedding-v4 环境搭建全过程
  • 实验-OSPF
  • 智能Agent场景实战指南 Day 20:Agent多模态交互能力
  • Windows 系统中 CURL 命令使用指南及常见错误解析
  • ai存在意义的对话
  • Unity UI的未来之路:从UGUI到UI Toolkit的架构演进与特性剖析(3)
  • UFS 描述符、标志和属性(二)
  • Java进阶3:Java集合框架、ArrayList、LinkedList、HashSet、HashMap和他们的迭代器
  • 外企本土化布局对国内连接器企业影响几何?
  • IO密集型、CPU密集型、负载、负载均衡
  • 从零开发Java坦克大战:架构设计与难点突破 (上)
  • 使用Jmeter进行http接口性能测试
  • 车规级CANFD芯片在汽车车身控制方案中的应用解析
  • 【时时三省】(C语言基础)怎样定义和使用指向函数的指针变量
  • ubuntu的tar解压指令相关
  • 基于单片机智能交通灯设计
  • Mac电脑使用IDEA启动服务后,报service异常
  • AI总结视频以及谷歌浏览器插件安装步骤
  • 【硬件-笔试面试题】硬件/电子工程师,笔试面试题-20,(知识点:热阻的概念,散热)
  • 实时云渲染将UE像素流嵌入业务系统,实现二维管理系统与数字孪生三维可视化程序的无缝交互
  • 嵌入式学习-(李宏毅)机器学习(2)-day29
  • 图片查重从设计到实现(2)Milvus安装准备etcd介绍、应用场景及Docker安装配置