当前位置: 首页 > news >正文

ubuntu 24.04 通过部署ollama提供大模型api接口

想部署一个大模型api接口,供自己在内网调用。
用AI生成部署方法,很多时候驴唇不对马嘴。
干脆自己写一篇完整的部署流程。

服务器环境

  • ubuntu 24.04
  • 显卡 NVIDA 3090(显存24G)
  • 内存 32G
  • 硬盘 1T

部署

安装 ubuntu 驱动

踩过坑的痛!!!因为我是空白系统,直接上来安装ollama,确实装成功了,但发现跑起来非常慢,就连说个“你好”,都要5秒才回应。通过监控,原来是GPU没跑起来,是用CPU跑的,真蛋疼!

安装推荐驱动命令:

- sudo ubuntu-drivers autoinstall 
- 安装完重启重启命令:sudo reboot

安装cuda

如果可以直接安装,那么不需要补充cuda仓库,直接安装就好了。

# 先补充cuda仓库,这里一定注意自己匹配的系统版本和架构(我用的ubuntu 24.04,x86_64架构):- sudo apt-key adv --fetch-keys https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/3bf863cc.pub`- sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/ /"
# 安装:- sudo apt-get update- sudo apt-get install -y nvidia-container-toolkit(安装完重启)

安装ollama

1. 安装命令(早上7点半速度很快):curl -fsSL https://ollama.com/install.sh | sh
2. 验证ollama:ollama --version
3. 下载模型:ollama pull gpt-oss:20b
4. 增加对外接口的配置,配置文件里加一行:Environment="OLLAMA_HOST=0.0.0.0:11434"
5. 重载配置:sudo systemctl daemon-reload
6. 重启服务:sudo systemctl restart ollama
7. 暂停服务:sudo systemctl stop ollama8. 其中第4步,我实测没生效,改用全局变量:
- 设置全局变量:sudo vim /etc/environment,
- 在后面追加一行:OLLAMA_HOST=0.0.0.0:11434,
- 别忘了重启系统:sudo reboot

排查:

  • ollama的配置文件:
/etc/systemd/system/ollama.service
  • 查看端口占用:
sudo lsof -i :11434

监控显存

watch -n 1 nvidia-smi  # 每秒刷新一次,显示显存、利用率、温度等
watch -n 1 'nvidia-smi --query-gpu=memory.used,memory.total --format=csv' #只看显存

防火墙放行

# 添加放行端口:
- sudo ufw allow 11434/tcp
- sudo ufw allow 11434/udp # udp协议不用可以不加
# 查看防火墙规则:
sudo ufw status verbose
    http://www.xdnf.cn/news/1305415.html

    相关文章:

  • Storage.AI解读:构建AI数据基础设施的开放标准
  • 【万字精讲】 左枝清减·右枝丰盈:C++构筑的二叉搜索森林
  • Java 中使用阿里云日志服务(SLS)完整指南
  • nifi 增量处理组件
  • 区块链:用数学重构信任的数字文明基石
  • 【0基础3ds Max】学习计划
  • 007TG洞察:特斯拉Robotaxi成本降低84%?技术驱动的效率革命对营销自动化的启示
  • 以下是对智能电梯控制系统功能及系统云端平台设计要点的详细分析,结合用户提供的梯控系统网络架构设计和系统软硬件组成,分点论述并补充关键要点:
  • 深度解读 Browser-Use:让 AI 驱动浏览器自动化成为可能
  • 初识CNN02——认识CNN2
  • 数据结构初阶:排序算法(二)交换排序
  • Boost库中boost::function函数使用详解
  • Redis面试精讲 Day 22:Redis布隆过滤器应用场景
  • 测控一体化闸门驱动灌区信息化升级的核心引擎
  • 波浪模型SWAN学习(1)——模型编译与波浪折射模拟(Test of the refraction formulation)
  • yolo安装
  • es7.x中分片和节点关系以及查看节点数
  • WEB安全--Java安全--Servlet内存马
  • 前端基础知识版本控制系列 - 01( 对版本管理的理解)
  • pyqt5无法显示opencv绘制文本和掩码信息
  • Map、Dictionary、Hash Table:到底该用哪一个?
  • 机械学习---- PCA 降维深度解析
  • 朗空量子与 Anolis OS 完成适配,龙蜥获得抗量子安全能力
  • redis-保姆级配置详解
  • 焊接机器人保护气体效率优化
  • 18- 网络编程
  • NAS播放器的新星,一站式全平台媒体库管理工具『Cinemore』体验
  • 文档对比(java-diff-utils)
  • HTML5新增属性
  • 【机器学习深度学习】OpenCompass 评测指标全解析:让大模型评估更科学