当前位置: 首页 > web >正文

列举开源的模型和推理框架

当然可以!下面是一个系统性的列表,按 开源大模型(LLM)推理框架 两大类列出,并配上简要说明。


🧠 一、开源大语言模型(LLMs)

名称发布者语言能力模型大小特点
LLaMA 2 / 3Meta英文强,少量多语7B/13B/70B非商业使用需申请;社区生态广泛
Qwen / Qwen1.5阿里云通义千问中文强,兼顾英文0.5B ~ 72B中文能力极强,Qwen1.5 开源,支持多模态
Baichuan 2百川智能中文优化7B / 13B商业/研究可用,API 接口友好
InternLM / InternLM2商汤 + 上交中文优,推理快7B / 20BInternLM2 引入 MoE,推理效率高
Yi01.AI(王慧文)中文 + 英文6B / 34BYi-34B 是当前顶级中文模型之一
Mistral / MixtralMistral.ai(法国)英语主导7B / 12.9B (MoE)极高性价比,推理快,非常热门
GemmaGoogle英语强2B / 7B使用 Apache 2 许可,研究友好
Phi-2 / Phi-3微软小模型2.7B / 4.2B教育、推理快,适合嵌入式
OpenChat / ChatGLM3OpenBMB / 智谱AI中文对话优化6B / 32BChatGLM 系列开源生态良好

⚙️ 二、主流开源推理框架(Inference Engines)

名称语言/实现支持硬件特点
vLLMPython / CUDA / TritonGPU(A10、A100、4090 等)高并发低延迟,生产级部署首选
llama.cppC++CPU / Apple M 系列 / GPU轻量、支持量化 .gguf 格式,能跑在树莓派上
OllamaRust / C++ 封装CPU / M 系列 GPUllama.cpp 的高级封装,一行命令启动
TGI (Text Generation Inference)HuggingFaceGPUTransformers 官方部署工具,支持 Batching、CUDA
FasterTransformerNVIDIAGPU强调 Transformer 高效并行,支持 INT8/FP16
TensorRT-LLMNVIDIAGPU (A100/H100)超高性能推理,适合部署 LLaMA-3 等模型
MLC LLMTVM 项目CPU / GPU / iOS / Android编译到浏览器、iPhone、本地设备
DeepSpeed-MIIMicrosoftGPU深度优化并行推理(基于 DeepSpeed)
Exllama / Exllamav2C++/CUDAGPU适用于量化模型(4-bit 推理超快)
ctransformersPython 绑定 llama.cppCPU / GPU在 Python 中直接跑 gguf 模型,适合小项目

📌 补充:工具生态

工具用途
transformersHuggingFace 模型加载和训练工具
AutoGPTQGPTQ 量化工具,适配 vLLM、Transformers
text-generation-webuiWebUI 管理/测试各种本地模型(支持 gguf / HF 模型)
LMDeploy商汤开发的 LLM 部署工具,支持 InternLM 系列
LangChain / LlamaIndex构建基于 LLM 的 RAG 检索系统

✅ 你可以根据用途选择:

你要做什么?推荐模型 + 推理框架
本地跑中文对话Qwen1.5 + Ollama / llama.cpp
服务器部署并发服务LLaMA3/Qwen + vLLM
快速试验不同模型text-generation-webui + GGUF 模型
移动端部署MLC LLM + Phi-2 / Tiny LLM
精准控制上下文 / Token 利用率vLLM(PagedAttention 优化)

如果你告诉我你电脑或服务器的配置(CPU/GPU/内存),我可以给你推荐最适合你机器的模型+框架组合。是否需要?

http://www.xdnf.cn/news/14064.html

相关文章:

  • CSS a标签内文本折行展示
  • NoETL 指标平台:语义驱动数据治理的升维战
  • 网络原理:网段划分
  • 看PDF文献用什么软件比较好?高效文献阅读工具推荐
  • Elasticsearch 批量创建索引实践与优化建议
  • vue中的三种插槽方式
  • file文件生成hash值
  • LeetCode 704.二分查找
  • gbase8s之MyBatis批量update问题
  • 中科院1区|IF10+:加大医学系团队利用GPT-4+电子病历分析,革新肝硬化并发症队列识别
  • 轻量级密码算法LED的C语言实现(无第三方库)
  • Ubuntu 24.04.2 LTS Python 人工智能Ai视觉模型
  • 使用php对navicat查看数据库密码?
  • 漏洞(网络空间安全真相)
  • 开源模型应用落地-工具使用篇-从零开始搭建Qdrant Web UI-可视化管理工具-Windows(十)
  • Linux 中 “/dev/null” 有什么作用 ?
  • OpenWrt:让OpenWrt支持USB声卡
  • 从喵喵喵到泄露Prompt:提示词注入攻击全解析
  • 【面板数据】中国与世界各国新能源汽车进出口数据-分类别与不分类别(2017-2024年)
  • UE5.5构建iOS失败但没有显式错误信息的问题
  • sharepoint 共享excel,如何实现某个 sheet 别人只读,但是另一个 sheet 可以编辑
  • 临时文件夹大量0字节xml问题排查
  • 在pyCharm中创建新的conda环境
  • 北斗导航 | 基于MATLAB的卫星导航单点定位算法(卡尔曼滤波增强)
  • 人工智能时代汽车营销如何创新突破?云徙科技汽车营销智能体助力车企立足数智化转型
  • Day53 Python打卡训练营
  • Github指南-Add .gitignore和Choose a license
  • 【C#】针对System.Drawing.Bitmap的压缩
  • python从环境变量和配置文件中获取配置参数
  • C#连接SQLServer数据库异常分析处理