当前位置: 首页 > ai >正文

普通用户的服务器连接与模型部署相关记录

普通用户的服务器连接与模型部署相关记录

一、从登录到使用自己的conda

1.账号登陆

ssh xxx@172.31.226.236

2.下载与安装conda

下载conda:

wget -c https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Linux-x86_64.sh

安装conda:

bash Anaconda3-2023.03-1-Linux-x86_64.sh

设置环境:

vim ~/.bashrc

export PATH="/home/data5/xxx/anaconda3/bin:$PATH"

刷新环境:
source ~/.bashrc

激活自己的conda:

source /home/data5/xxx/anaconda3/bin/activate

可直接写入~/.bashrc

/home/data5/xxx/anaconda3/bin/activate

3.过程性问题

系统环境变量中显示/不显示环境名称:

conda config --add envs_dirs /home/data5/xxx/anaconda3/envsconda config --remove envs_dirs /home/adminroot/anaconda3/envs~/.condarc

envs_dirs中写入:/home/data5/xxx/anaconda3/envs

验证

出现自己的conda的版本而不是系统的conda版本即可

conda --version

实时查看gpu占用

watch -n 1 nvidia-smi

二、pychram连接服务器

pychram连接服务器:
Pycharm远程连接服务器并运行代码(详细!)_pycharm将代码同步到远程服务器-CSDN博客

Pycharm 远程开发时,使用远程服务器的终端功能_pycharm远程连接服务器怎么用终端-CSDN博客

三、window下ollama本地大模型部署

window安装ollama和docker和Open-WebUI:

在Windows上轻松部署本地大语言模型:Ollama与Open-WebUI的完整指南_ollama 安装-CSDN博客

Open-WebUI安装:

史上最简单open-webui安装方式!!!_open-webui 安装-CSDN博客

四、window下大模型部署

flash-attn要求torch版本较低

但是Qwen2要求tranformer版本较高,torch版本也较高

然后跑Qwen2模型又不得不两个都具备,所以在window上无解

五、linux下使用vllm部署大模型(request请求形式–可多卡)

1、linux安装vllm

pip install vllm

2、vllm启动Qwen2-VL-7B-Instruct

1)首先启动Qwen2-VL-7B-Instruct–CPU的

vllm serve Qwen2-VL-7B-Instruct --dtype auto --port 8000 --limit_mm_per_prompt image=4 --max_model_len 8784 --gpu_memory_utilization 0.8

或者先安装conda install -c nvidia nccl

启动Qwen2-VL-7B-Instruct-GPU的:vllm serve Qwen2-VL-7B-Instruct --dtype half --port 8000 --tensor-parallel-size 2 --pipeline-parallel-size 2 --gpu-memory-utilization 0.7 --limit_mm_per_prompt image=4 --max_model_len 8784

2)其次调用

Vllm进行Qwen2-vl部署(包含单卡多卡部署及爬虫请求)_vllm部署 qwen2-vl-CSDN博客

不能进行图片啊啊啊,似乎还是属于内存分配不够的问题

六、linux下部署大模型(非请求形式)

跑模型Qwen2-VL-7B-Instruct出现爆内存情况

1、转更小的模型Qwen2-VL-2B-Instruct+量化(flash-attn或者Auto-GPTQ)

将cuda10.2换成cuda11.8才能配flash-attn:

手动安装flash地址(实际上只能手动,自动报错解决不了):Releases · Dao-AILab/flash-attention

自动安装flash:安装flash-attention失败的终极解决方案_building wheels for collected packages: flash-attn-CSDN博客

Linux 服务器下非root用户安装CUDA完整流程(多次踩雷经验总结)_linux cuda安装-CSDN博客

cp cudnn-linux-x86_64-8.9.7.29_cuda11-archive/include/cudnn.h /home/data5/xxx

/cuda11.8/include/

cp cudnn-linux-x86_64-8.9.7.29_cuda11-archive/lib/libcudnn* /home/data5/xxx/cuda11.8/lib64/

chmod a+r /home/data5/xxx/cuda11.8/include/cudnn*.h

chmod a+r /home/data5/xxx/cuda11.8/lib64/libcudnn*

source ~/.bashrc

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple auto-gptq

使用:Py之auto-gptq:auto-gptq的简介、安装、使用方法之详细攻略-CSDN博客

结果:

2B+单图:量化与否都可以

2B+双图:得量化

7B+单图:得量化

7B+双图:得量化

实现网页跑qwen2:Qwen2本地web Demo_qwen2 7b 硬件要求-CSDN博客

qwen2测试代码地址(没有考虑显存不足的情况):MLM之Qwen:Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略_qwen2-vl使用-CSDN博客

2、分卡跑

本地多卡(3090)部署通义千问Qwen-72B大模型提速实践:从龟速到够用_千问72b部署-CSDN博客

大模型笔记之-Qwen72B-chat-int4部署 |使用双卡3090成功运行_运行qwen-72b-CSDN博客

conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0  pytorch-cuda=11.8 -c pytorch -c nvidiapip install imodelsxpip install pillow requestspip install transformerspip install torch==2.4.0pip install accelerate>=0.26.0pip install flash_attn-2.6.3+cu118torch2.4cxx11abiFALSE-cp311-cp311-linux_x86_64.whlpip install qwen_vl_utilspip install --upgrade spark_ai_pythonpip install openaipip install opencv-python
http://www.xdnf.cn/news/7048.html

相关文章:

  • Qt 信号和槽-核心知识点小结(11)
  • 建一个结合双向长短期记忆网络(BiLSTM)和条件随机场(CRF)的模型
  • 什么是时间戳?怎么获取?有什么用
  • SQL练习(12/81)
  • C++ map容器: 插入操作
  • 一次页面假死分析
  • SpringBoot3+AI
  • Text models —— BERT,RoBERTa, BERTweet,LLama
  • 项目制作流程
  • html文件cdn一键下载并替换
  • 第五部分:阶段项目 4:构建 RESTful API 服务器
  • 创建指定版本的vite项目
  • 《Python星球日记》 第88天:ChatGPT 与 LangChain
  • ADB基本操作和命令
  • 【机器学习】工具入门:飞牛启动Dify Ollama Deepseek
  • 开始学习做游戏,就现在
  • 短剧小程序系统开发源码上架,短剧项目市场分析
  • 【上位机——WPF】布局控件
  • vue3 elementplus tabs切换实现
  • Node.js 实战六:日志系统设计 —— 不只是 console.log,而是可追溯的行为记录链
  • Mac 在恢复模式下出现 旋转地球图标 但进度非常缓慢
  • 【android bluetooth 协议分析 01】【HCI 层介绍 3】【NUMBER_OF_COMPLETED_PACKETS 事件介绍】
  • 利用html制作简历网页和求职信息网页
  • Ubuntu 环境中 MATLAB 安装常见问题及解决方案
  • 【大模型系列】logprobs(对数概率)参数
  • boost变换器simulink仿真,开环,电压环控制,电流环控制,电压电流双闭环控制策略,含bode图
  • 从0开始学linux韦东山教程第四章问题小结(1)
  • React Native 0.68 安装react-native-picker报错:找不到compile
  • 整理了 2009 - 2025 年的【199 管综真题 + 解析】PDF,全套共 34 份文件
  • pycharm连接github(详细步骤)