当前位置: 首页 > backend >正文

【vLLM 学习】Aqlm 示例

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

源代码:vllm-project/vllm

from vllm import LLM, SamplingParams
from vllm.utils import FlexibleArgumentParserdef main():parser = FlexibleArgumentParser(description='AQLM examples')parser.add_argument('--model','-m',type=str,default=None,help='model path, as for HF')parser.add_argument('--choice','-c',type=int,default=0,help='known good models by index, [0-4]')parser.add_argument('--tensor-parallel-size','-t',type=int,default=1,help='tensor parallel size')args = parser.parse_args()models = ["ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf","ISTA-DASLab/Llama-2-7b-AQLM-2Bit-2x8-hf","ISTA-DASLab/Llama-2-13b-AQLM-2Bit-1x16-hf","ISTA-DASLab/Mixtral-8x7b-AQLM-2Bit-1x16-hf","BlackSamorez/TinyLlama-1_1B-Chat-v1_0-AQLM-2Bit-1x16-hf",]model = LLM(args.model if args.model is not None else models[args.choice],tensor_parallel_size=args.tensor_parallel_size)sampling_params = SamplingParams(max_tokens=100, temperature=0)outputs = model.generate("Hello my name is",sampling_params=sampling_params)print(outputs[0].outputs[0].text)if __name__ == '__main__':main()
http://www.xdnf.cn/news/96.html

相关文章:

  • 网页端调用本地应用打开本地文件(PDF、Word、excel、PPT)
  • day31和day32图像处理OpenCV
  • 数据通信学习笔记之OSPF配置命令
  • 大数据应用开发——大数据平台集群部署
  • 数据结构——二叉树
  • GB28181的SIP注册与PS推流学习
  • 常用绑定事件方式有哪几种
  • Spring AI与通义千问的完美结合:构建智能对话应用
  • 【OSG学习笔记】Day 3: 加载你的第一个3D模型
  • C++每日训练 Day 16:构建 GUI 响应式信号机制(面向初学者)
  • Linux 文件传输:系统数据交互的动脉
  • 【Leetcode 每日一题 - 补卡】2537. 统计好子数组的数目
  • Flink-01学习 介绍Flink及上手小项目之词频统计
  • GPT对话UI--通义千问API
  • Linux 权限
  • 2025.4.17学习日记 初识JavaScript 以及Java和JavaScript有什么区别
  • 什么是分布式锁?
  • Linux: 生产者消费者模型
  • 从零开始学A2A四:A2A 协议的安全性与多模态支持
  • 多个路由器互通(静态路由)无单臂路由(简单版)
  • STM32 时钟树
  • TCP连接建立:为什么是三次握手?
  • 正则表达式在爬虫中的应用:匹配 HTML 和 JSON 的技巧
  • 操作教程|通过DataEase制作MaxKB系统数据大屏
  • QML之Overlay
  • R4打卡——pytorch实现LSTM预测火灾
  • 《vue3学习手记4》
  • openai发布今天发布了o3和o4-mini。
  • Vue 3 reactive 和 ref 区别及 失去响应性问题
  • 大数据常见的模型定义及应用场景建议╮(╯▽╰)╭