当前位置：首页 > web >正文

列举开源的模型和推理框架

web 2025/6/18 12:33:11

当然可以！下面是一个系统性的列表，按 开源大模型（LLM） 和 推理框架 两大类列出，并配上简要说明。

🧠 一、开源大语言模型（LLMs）

名称	发布者	语言能力	模型大小	特点
LLaMA 2 / 3	Meta	英文强，少量多语	7B/13B/70B	非商业使用需申请；社区生态广泛
Qwen / Qwen1.5	阿里云通义千问	中文强，兼顾英文	0.5B ~ 72B	中文能力极强，Qwen1.5 开源，支持多模态
Baichuan 2	百川智能	中文优化	7B / 13B	商业/研究可用，API 接口友好
InternLM / InternLM2	商汤 + 上交	中文优，推理快	7B / 20B	InternLM2 引入 MoE，推理效率高
Yi	01.AI（王慧文）	中文 + 英文	6B / 34B	Yi-34B 是当前顶级中文模型之一
Mistral / Mixtral	Mistral.ai（法国）	英语主导	7B / 12.9B (MoE)	极高性价比，推理快，非常热门
Gemma	Google	英语强	2B / 7B	使用 Apache 2 许可，研究友好
Phi-2 / Phi-3	微软	小模型	2.7B / 4.2B	教育、推理快，适合嵌入式
OpenChat / ChatGLM3	OpenBMB / 智谱AI	中文对话优化	6B / 32B	ChatGLM 系列开源生态良好

⚙️ 二、主流开源推理框架（Inference Engines）

名称	语言/实现	支持硬件	特点
vLLM	Python / CUDA / Triton	GPU（A10、A100、4090 等）	高并发低延迟，生产级部署首选
llama.cpp	C++	CPU / Apple M 系列 / GPU	轻量、支持量化 `.gguf` 格式，能跑在树莓派上
Ollama	Rust / C++ 封装	CPU / M 系列 GPU	llama.cpp 的高级封装，一行命令启动
TGI (Text Generation Inference)	HuggingFace	GPU	Transformers 官方部署工具，支持 Batching、CUDA
FasterTransformer	NVIDIA	GPU	强调 Transformer 高效并行，支持 INT8/FP16
TensorRT-LLM	NVIDIA	GPU (A100/H100)	超高性能推理，适合部署 LLaMA-3 等模型
MLC LLM	TVM 项目	CPU / GPU / iOS / Android	编译到浏览器、iPhone、本地设备
DeepSpeed-MII	Microsoft	GPU	深度优化并行推理（基于 DeepSpeed）
Exllama / Exllamav2	C++/CUDA	GPU	适用于量化模型（4-bit 推理超快）
ctransformers	Python 绑定 llama.cpp	CPU / GPU	在 Python 中直接跑 gguf 模型，适合小项目

📌 补充：工具生态

工具	用途
transformers	HuggingFace 模型加载和训练工具
AutoGPTQ	GPTQ 量化工具，适配 vLLM、Transformers
text-generation-webui	WebUI 管理/测试各种本地模型（支持 gguf / HF 模型）
LMDeploy	商汤开发的 LLM 部署工具，支持 InternLM 系列
LangChain / LlamaIndex	构建基于 LLM 的 RAG 检索系统

✅ 你可以根据用途选择：

你要做什么？	推荐模型 + 推理框架
本地跑中文对话	Qwen1.5 + Ollama / llama.cpp
服务器部署并发服务	LLaMA3/Qwen + vLLM
快速试验不同模型	text-generation-webui + GGUF 模型
移动端部署	MLC LLM + Phi-2 / Tiny LLM
精准控制上下文 / Token 利用率	vLLM（PagedAttention 优化）

如果你告诉我你电脑或服务器的配置（CPU/GPU/内存），我可以给你推荐最适合你机器的模型+框架组合。是否需要？

http://www.xdnf.cn/news/14064.html

相关文章：

CSS a标签内文本折行展示

NoETL 指标平台：语义驱动数据治理的升维战

网络原理:网段划分

看PDF文献用什么软件比较好？高效文献阅读工具推荐

Elasticsearch 批量创建索引实践与优化建议

vue中的三种插槽方式

file文件生成hash值

LeetCode 704.二分查找

gbase8s之MyBatis批量update问题

中科院1区|IF10+：加大医学系团队利用GPT-4+电子病历分析，革新肝硬化并发症队列识别

轻量级密码算法LED的C语言实现（无第三方库）

Ubuntu 24.04.2 LTS Python 人工智能Ai视觉模型

使用php对navicat查看数据库密码？

漏洞（网络空间安全真相）

开源模型应用落地-工具使用篇-从零开始搭建Qdrant Web UI-可视化管理工具-Windows（十）

Linux 中 “/dev/null” 有什么作用？

OpenWrt：让OpenWrt支持USB声卡

从喵喵喵到泄露Prompt：提示词注入攻击全解析

【面板数据】中国与世界各国新能源汽车进出口数据-分类别与不分类别（2017-2024年）

UE5.5构建iOS失败但没有显式错误信息的问题

sharepoint 共享excel，如何实现某个 sheet 别人只读，但是另一个 sheet 可以编辑

临时文件夹大量0字节xml问题排查

在pyCharm中创建新的conda环境

北斗导航｜基于MATLAB的卫星导航单点定位算法（卡尔曼滤波增强）

人工智能时代汽车营销如何创新突破？云徙科技汽车营销智能体助力车企立足数智化转型

Day53 Python打卡训练营

Github指南-Add .gitignore和Choose a license

【C#】针对System.Drawing.Bitmap的压缩

python从环境变量和配置文件中获取配置参数

C#连接SQLServer数据库异常分析处理