当前位置：首页 > web >正文

【vLLM 学习】CPU 离线处理

web 2025/7/1 9:54:17

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

源代码：vllm-project/vllm

from vllm import LLM, SamplingParams# Sample prompts.
# 提示示例prompts = ["Hello, my name is","The president of the United States is","The capital of France is","The future of AI is",
]
# Create a sampling params object.
# 创建 sampling params 对象
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)# Create an LLM.
# 创建一个 LLM
llm = LLM(model="meta-llama/Llama-2-13b-chat-hf", cpu_offload_gb=10)
# Generate texts from the prompts. The output is a list of RequestOutput objects
# that contain the prompt, generated text, and other information.
# 从提示中生成文本。输出是一个 RequestOutput 列表，包含提示、生成文本和其他信息outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
# 打印输出
for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

http://www.xdnf.cn/news/2612.html

相关文章：

通俗易懂一文讲透什么是 MCP？

坐标转换：从WGS-84到国内坐标系(GCJ-02BD-09)

大语言模型 - 运行、微调的显存计算详解与优化全量微调、LoRA 优化策略

windows安装docker教程

PTA -L1-005 考试座位号(BufferedReader、Arraylist动态数组、Map)

记录一下从debian12升级到debian13出现的小插曲01

C++翻转数相乘 2024年信息素养大赛复赛 C++小学/初中组算法创意实践挑战赛真题详细解析

shell编程基础知识及脚本示例

Android源码编译命令详解

基于 Amazon RDS 数据库之间复制数据并屏蔽个人身份信息

写读后感的时候，可以适当地引用书中的内容吗？

边缘函数：全栈开发的最后1毫秒性能革命

MQTT - MQTT 实践（Windows EMQX、MQTTX、客户端认证、连接与主题）

Java多线程实现顺序执行

[计算机科学#3]：布尔逻辑（计算机数学基础）

Python第三周作业

语音合成之八-情感化语音合成的演进路线

[ECCV 2024]UMBRAE: Unified Multimodal Brain Decoding

赞奇AIknow是什么？

2025年8月PMP考试费用上涨？8月PMP考试费用解析！

电力系统失步解列与振荡解析

基于知识库的智能客户服务工具

Tailwind CSS 实战：基于 Kooboo 构建企业官网页面（二）

runtimeChunk的作用

Servlet (简单的servlet的hello world程序)

SAP-pp 怎么通过底表的手段查找BOM的全部ECN变更历史

小红书笔记详情API接口概述及JSON数据返回参考

element通过业务按钮点击导入，调用el-upload的导入方法