当前位置：首页 > news >正文

【代码模板】从huggingface加载tokenizer和模型，进行推理

news 2025/6/12 23:05:14

【代码模板】从huggingface加载tokenizer和模型，进行推理

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline# 1. 加载 tokenizer 和模型
tokenizer = AutoTokenizer.from_pretrained("PowerInfer/SmallThinker-3B-Preview", use_fast=True, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("PowerInfer/SmallThinker-3B-Preview", torch_dtype="auto", trust_remote_code=True)# 2. 创建文本生成／问答管道
qa_pipeline = pipeline("text-generation",         # 对于简单问答也可以用 text-generationmodel=model,tokenizer=tokenizer,device=0                   # 如果有 GPU，改成对应的 GPU id；没有的话删掉这一行
)# 3. 生成回答
question = "什么是激活稀疏性（activation sparsity）"
prompt = f"问：{question}\n答："
result = qa_pipeline(prompt,max_new_tokens=256,do_sample=True,           # 设为 greedy 解码；你可以改为 True 并加 top_k/top_p 来更丰富eos_token_id=tokenizer.eos_token_id
)
print(result[0]["generated_text"])

http://www.xdnf.cn/news/970723.html

相关文章：

idea64.exe.vmoptions配置

IDEA中配置HTML和Thymeleaf热部署的步骤

蓝桥杯 2024 15届国赛 A组儿童节快乐

指针与引用参数传递的区别及内存操作流程详解

分散电站，集中掌控，安科瑞光伏云平台助力企业绿色转型

高通录像功能

Vim 光标移动命令总览

Java中高并发线程池的相关面试题详解

《ZLMediaKit 全流程实战：从部署到 API 调用与前后端集成》

用 LoRA 对 Qwen2.5-VL 模型进行SFT - FORCE_TORCHRUN=1

条件运算符

error: src refspec master does not match any - Git

coze的基本使用

从零开始搭建现代化 Monorepo 开发模板：TypeScript + Rollup + Jest + 持续集成完整指南

Git操作问题及解决方案-记录5

（十）学生端搭建

【SQL学习笔记3】深入理解窗口函数的用法

鹰盾加密器系统黑屏问题的深度解析与处理机制

RAG系统向量数据库选型与Prompt Engineering鲁棒性测试实践

10：00开始面试，10：06就出来了，问的问题有点变态。。。

第14篇：数据库中间件的分布式配置与动态路由规则热加载机制

vxe-table 如何实现直接渲染输入框控件，不需要点击编辑方式，直接就显示文本框

DSL查询文档

Android OpenSL ES 音频播放完整实现指南

AtCoder Beginner Contest 408

电路笔记(元器件)：并串转换芯片 SN65LV1023A 10:1 LVDS 串行器/解串器变送器 100 至 660Mbps

HarmonyOS开发：设备管理使用详解

shell脚本总结15：grep命令的使用方法

不变性（Immutability）模式

丝路幽径：穿梭于Linux多线程控制的秘境