当前位置: 首页 > news >正文

【代码模板】从huggingface加载tokenizer和模型,进行推理

【代码模板】从huggingface加载tokenizer和模型,进行推理

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline# 1. 加载 tokenizer 和模型
tokenizer = AutoTokenizer.from_pretrained("PowerInfer/SmallThinker-3B-Preview", use_fast=True, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("PowerInfer/SmallThinker-3B-Preview", torch_dtype="auto", trust_remote_code=True)# 2. 创建文本生成/问答管道
qa_pipeline = pipeline("text-generation",         # 对于简单问答也可以用 text-generationmodel=model,tokenizer=tokenizer,device=0                   # 如果有 GPU,改成对应的 GPU id;没有的话删掉这一行
)# 3. 生成回答
question = "什么是激活稀疏性(activation sparsity)"
prompt = f"问:{question}\n答:"
result = qa_pipeline(prompt,max_new_tokens=256,do_sample=True,           # 设为 greedy 解码;你可以改为 True 并加 top_k/top_p 来更丰富eos_token_id=tokenizer.eos_token_id
)
print(result[0]["generated_text"])
http://www.xdnf.cn/news/970723.html

相关文章:

  • idea64.exe.vmoptions配置
  • IDEA中配置HTML和Thymeleaf热部署的步骤
  • 蓝桥杯 2024 15届国赛 A组 儿童节快乐
  • 指针与引用参数传递的区别及内存操作流程详解
  • 分散电站,集中掌控,安科瑞光伏云平台助力企业绿色转型
  • 高通录像功能
  • Vim 光标移动命令总览
  • Java中高并发线程池的相关面试题详解
  • 《ZLMediaKit 全流程实战:从部署到 API 调用与前后端集成》
  • 用 LoRA 对 Qwen2.5-VL 模型进行SFT - FORCE_TORCHRUN=1
  • 条件运算符
  • error: src refspec master does not match any - Git
  • coze的基本使用
  • 从零开始搭建现代化 Monorepo 开发模板:TypeScript + Rollup + Jest + 持续集成完整指南
  • Git操作问题及解决方案-记录5
  • (十)学生端搭建
  • 【SQL学习笔记3】深入理解窗口函数的用法
  • 鹰盾加密器系统黑屏问题的深度解析与处理机制
  • RAG系统向量数据库选型与Prompt Engineering鲁棒性测试实践
  • 10:00开始面试,10:06就出来了,问的问题有点变态。。。
  • 第14篇:数据库中间件的分布式配置与动态路由规则热加载机制
  • vxe-table 如何实现直接渲染输入框控件,不需要点击编辑方式,直接就显示文本框
  • DSL查询文档
  • Android OpenSL ES 音频播放完整实现指南
  • AtCoder Beginner Contest 408
  • 电路笔记(元器件):并串转换芯片 SN65LV1023A 10:1 LVDS 串行器/解串器变送器 100 至 660Mbps
  • HarmonyOS开发:设备管理使用详解
  • shell脚本总结15:grep命令的使用方法
  • 不变性(Immutability)模式
  • 丝路幽径:穿梭于Linux多线程控制的秘境