使用docker中的ollama
假设容器名字为ollama-qihuang
:
进入容器,拉取deepseek-r1:7b模型:
docker exec -it ollama-qihuang bash
ollama pull deepseek-r1:7b
Ollama 模型管理教程(容器名:ollama-qihuang)
一、拉取官方模型(以 llama2 为例)
# 进入Ollama容器的交互式Shell
docker exec -it ollama-qihuang bash# 使用ollama CLI拉取官方模型(如llama2:7b)
ollama pull llama2:7b# 退出容器
exit
二、验证官方模型是否成功拉取
# 查看所有已下载的模型
docker exec ollama-qihuang ollama list# 预期输出(示例)
# NAME TYPE SIZE MODIFIED
# llama2:7b model 13.43 GB 2023-10-01 12:00:00
三、部署本地微调模型(以 deepseek-r1:7b-finetune 为例)
步骤 1:准备本地模型文件
-
将微调后的模型文件(通常为 GGML 格式)放入宿主机目录:
mkdir -p ~/qihuang/ollama/models/custom-models cp /path/to/your/finetuned-model.bin ~/qihuang/ollama/models/custom-models/deepseek-r1:7b-finetune.bin
步骤 2:重启容器以加载新模型
# 停止并重新启动容器(确保挂载路径正确)
docker restart ollama-qihuang# 或重新创建容器(适用于首次部署)
docker run -d \--name ollama-qihuang \-p 9034:11434 \-v ~/qihuang/ollama/models:/models \ # 挂载包含微调模型的目录ollama/ollama:latest serve
步骤 3:通过 API 创建模型别名(可选)
curl -X POST http://localhost:9034/api/create \-H "Content-Type: application/json" \-d '{"name": "deepseek-r1:7b-finetune","path": "/models/custom-models/deepseek-r1:7b-finetune.bin","alias": "my-finetuned-model"}'
四、使用模型进行推理
1. 调用官方模型(llama2:7b)
curl http://localhost:9034/api/generate \-H "Content-Type: application/json" \-d '{"model": "llama2:7b","prompt": "写一首关于秋天的诗","temperature": 0.8}' | jq
2. 调用本地微调模型(deepseek-r1:7b-finetune)
curl http://localhost:9034/api/generate \-H "Content-Type: application/json" \-d '{"model": "deepseek-r1:7b-finetune", # 或使用别名"my-finetuned-model""prompt": "根据微调数据回答问题:xxx","system": "你是一个专业的领域专家"}' | jq
五、模型管理常用命令
操作 | 命令示例 |
---|---|
查看所有模型 | docker exec ollama-qihuang ollama list |
删除指定模型 | docker exec ollama-qihuang ollama delete llama2:7b |
查看模型详细信息 | docker exec ollama-qihuang ollama info deepseek-r1:7b-finetune |
列出正在运行的模型 | docker exec ollama-qihuang ollama running |
六、注意事项
-
模型路径映射:
确保宿主机目录~/qihuang/ollama/models
与容器内路径/models
正确挂载,否则无法识别本地模型。 -
模型格式要求:
Ollama 支持 GGML 格式(.bin
文件),微调模型需转换为 Ollama 兼容的格式(可通过ollama convert
命令处理)。 -
权限问题:
若出现权限不足,需确保宿主机目录对 Docker 用户可读:chmod -R 755 ~/qihuang/ollama/models
七、进阶操作:量化模型以减少显存占用
# 进入容器创建4位量化模型
docker exec -it ollama-qihuang bash
ollama create deepseek-r1:7b-finetune-q4 -s deepseek-r1:7b-finetune -q q4_0
exit# 使用量化模型推理
curl http://localhost:9034/api/generate -d '{"model": "deepseek-r1:7b-finetune-q4","prompt": "量化模型测试"
}'
通过以上步骤,可快速管理 Ollama 的官方模型和自定义微调模型。如需调整容器端口或 GPU 配置,可参考Ollama 官方文档。