当前位置：首页 > java >正文

ollama使用gpu运行大模型

java 2025/8/20 5:36:53

罗列ollma镜像

ollama list

拉取ollama镜像源里面的模型：

ollama pull qwen2:1.5b

下载CudaToolkit
https://developer.nvidia.com/cuda-toolkit-archive
我这里选择11.7的万金油版本，从来没出过bug
在这里插入图片描述

Ollama安装好后，为了让推理跑在GPU上，可以按照如下步骤设置环境变量：
在“系统变量”中，点击“新建”按钮。
添加以下环境变量：
变量名：OLLAMA_GPU_LAYER
变量值：cuda
在这里插入图片描述
验证是否使用gpu
问几个比较复杂的问题然后再另外一个命令行窗口输入命令

ollama ps

窗口1
在这里插入图片描述
窗口2

可以看见，我们使用到了gpu，并且很神速

或者看一下任务管理器的gpu运行情况也行，如果利用率很高说明用到了gpu

http://www.xdnf.cn/news/7783.html

相关文章：

Xilinx 7Series\UltraScale 在线升级FLASH STARTUPE2和STARTUPE3使用

Java 定时任务中Cron 表达式与固定频率调度的区别及使用场景

唯创安全优化纸业车间安全环境：门口盲区预警报警器的应用与成效

STL中的Vector(顺序表)

RabbitMQ——消息确认

NLP学习路线图（三）：微积分（梯度、导数等）

有没有其他影视app可以像群晖video station一样可以被Windows的本地网络驱动器找到

【Vue3】数据的返回和响应式处理（ref reactive）

自建srs实时视频服务器支持RTMP推流和拉流

Kotlin 极简小抄 P8（不可空类型、可空类型、注意事项、非空断言 !!）

什么是endpoints？

php://filter的trick

Server-Driven UI：Kotlin 如何重塑动态化 Android 应用开发

《算法笔记》12.1小节——字符串专题-＞字符串hash进阶问题 A: 求最长公共子串（串）

代码随想录打卡|Day45 图论（孤岛的总面积、沉没孤岛、水流问题、建造最大岛屿）

ARM反汇编浅析

【JAVA】比较器Comparator与自然排序（28）

Flannel后端为UDP模式下，分析数据包的发送方式(一)

【react18】在styled-components中引入图片报错

项目中Warmup耗时高该如何操作处理

深度解析 Java 中介者模式：重构复杂交互场景的优雅方案

详解 C# 中基于发布-订阅模式的 Messenger 消息传递机制：Messenger.Default.Send/Register

服务器网络配置 netplan一个网口配置两个ip（双ip、辅助ip、别名IP别名）

Java详解LeetCode 热题 100(18):LeetCode 73. 矩阵置零（Set Matrix Zeroes）详解

广州卓远VR受邀参加2025智能体育典型案例调研活动，并入驻国体华为运动健康联合实验室!

深入解析异步编程：Java NIO、Python `async/await` 与 C# `async/await` 的对比

junit单元测试

[Linux] Linux信号量深度解析与实践（代码示例）

VLA模型：自动驾驶与机器人行业的革命性跃迁，端到端智能如何重塑未来？