当前位置: 首页 > backend >正文

常见的LLM

常见的 LLM(大语言模型,Large Language Models)可以按照开源/闭源、机构/公司、用途等维度分类。以下是一些主流和常见的 LLM 及其简介:


 一、开源 LLM

Meta(Facebook)

名称参数量特点
LLaMA 1 / 2 / 37B / 13B / 70B高效、可商用、训练语料质量高,广泛作为基础模型

Mistral(法国)

名称参数量特点
Mistral 7B7B支持 FlashAttention,速度快、性能强,Apache 2.0 可商用
Mixtral 8x7B(MoE)总参数56B,激活2x7B混合专家模型(MoE),性能接近 GPT-3.5

Google

名称参数量特点
Gemma2B / 7BGemma 1 是 Gemini 的开源轻量版,性能优越,可商用

MPT(MosaicML)

名称参数量特点
MPT-7B7B支持长上下文、代码/对话/指令微调版本丰富

Falcon(阿布扎比 TII)

名称参数量特点
Falcon 7B / 40B7B / 40BFalcon-40B 曾在 Hugging Face 夺冠,性能优秀

xAI(Elon Musk)

名称参数量特点
Grok(基于 Grok-1)未公开(Grok-1是基于Mixture of Experts)X 平台使用,主打实时信息理解

中文模型

名称参数量特点
ChatGLM-3(清华智谱)6B / 32B中英双语、支持多轮对话、适配国产算力
Baichuan(百川)7B / 13B / 53B高性能中文支持,13B 为通用模型标杆
Qwen(阿里通义)7B / 14B / 72B多模态支持、性能优异、逐步开源
InternLM(上海 AI 实验室)7B / 20B / 104B中文能力强,代码能力也较强

二、闭源 LLM

OpenAI

名称参数量特点
GPT-3.5 / GPT-4 / GPT-4o未公开商业最成功产品,GPT-4o 支持多模态、低延迟

Google DeepMind

名称参数量特点
Gemini 1 / 1.5未公开多模态能力突出,与 Google 产品深度融合

Anthropic

名称参数量特点
Claude 1 / 2 / 3未公开长上下文窗口、注重安全、类人风格强


三、专业方向模型

  • 代码生成类

    • CodeLlama(Meta)、Phind-CodeLlama(Phind)

    • Deepseek-Coder(中文)、StarCoder(BigCode)

  • 多模态类(图像+文本):

    • GPT-4o(OpenAI)、Gemini(Google)、Qwen-VL(阿里)、InternLM-XComposer

  • 语音+文本类

    • Whisper(OpenAI)、GPT-4o(支持语音输入)


四、如何选择模型?

场景推荐模型
多语言、通用问答GPT-4、Claude 3、Gemini
轻量本地部署Mistral 7B、Qwen 1.5 7B、LLaMA 3 8B
中文场景ChatGLM3、Baichuan2、Qwen1.5、Deepseek
多模态GPT-4o、Gemini、Qwen-VL
编程Phind、Deepseek-Coder、CodeLlama
http://www.xdnf.cn/news/7989.html

相关文章:

  • 从零基础到最佳实践:Vue.js 系列(2/10):《模板语法与数据绑定》
  • 对抗学习(AL),生成对抗网络(GAN),强化学习,RLHF
  • 【差异分析】t-test
  • React中 lazy与 Suspense懒加载的组件
  • 26、AI 预测性维护 (燃气轮机轴承) - /安全与维护组件/ai-predictive-maintenance-turbine
  • 鸿蒙电脑系统和统信UOS都是自主可控的系统吗
  • 从零开始:Python语言基础之条件语句(if-elif-else)
  • Java虚拟机栈
  • 社会工程与信息收集
  • 左手腾讯CodeBuddy 、华为通义灵码,右手微软Copilot,旁边还有个Cursor,程序员幸福指数越来越高了
  • Human Dil-HDL,使用方法,红色荧光标记人源高密度脂蛋白
  • 循环队列分析及应用
  • 在 Qt 中实现动态切换主题(明亮和暗黑)
  • Gartner研究报告《Generative AI 赋能Digital Commerce的三种路径》学习心得
  • 笑林广记读书笔记三
  • 下一代电子电气架构(EEA)的关键技术
  • 具有思考模式模型部署:Qwen3、DeepSeek-R1-Distill、Phi-4、QWQ系列
  • 模型量化与保存
  • Python实例题:Python实现简单画板
  • 网络安全之身份验证绕过漏洞
  • 【AI+开发】什么是LLM、MCP和Agent?
  • 容器网络中的 veth pair 技术详解
  • 求无符号字符型数据乘积的高一半
  • 隧道自动化监测解决方案
  • 【攻防实战】MacOS系统上线Cobalt Strike
  • 高并发内存池|六、page cache的设计
  • 13、自动配置【源码分析】-自动包规则原理
  • Springboot2
  • Qt enabled + geometry 属性(2)
  • 微信小游戏流量主广告自动化浏览功能案例5