常见的LLM
常见的 LLM(大语言模型,Large Language Models)可以按照开源/闭源、机构/公司、用途等维度分类。以下是一些主流和常见的 LLM 及其简介:
一、开源 LLM
Meta(Facebook)
名称 | 参数量 | 特点 |
---|---|---|
LLaMA 1 / 2 / 3 | 7B / 13B / 70B | 高效、可商用、训练语料质量高,广泛作为基础模型 |
Mistral(法国)
名称 | 参数量 | 特点 |
---|---|---|
Mistral 7B | 7B | 支持 FlashAttention,速度快、性能强,Apache 2.0 可商用 |
Mixtral 8x7B(MoE) | 总参数56B,激活2x7B | 混合专家模型(MoE),性能接近 GPT-3.5 |
名称 | 参数量 | 特点 |
---|---|---|
Gemma | 2B / 7B | Gemma 1 是 Gemini 的开源轻量版,性能优越,可商用 |
MPT(MosaicML)
名称 | 参数量 | 特点 |
---|---|---|
MPT-7B | 7B | 支持长上下文、代码/对话/指令微调版本丰富 |
Falcon(阿布扎比 TII)
名称 | 参数量 | 特点 |
---|---|---|
Falcon 7B / 40B | 7B / 40B | Falcon-40B 曾在 Hugging Face 夺冠,性能优秀 |
xAI(Elon Musk)
名称 | 参数量 | 特点 |
---|---|---|
Grok(基于 Grok-1) | 未公开(Grok-1是基于Mixture of Experts) | X 平台使用,主打实时信息理解 |
中文模型
名称 | 参数量 | 特点 |
---|---|---|
ChatGLM-3(清华智谱) | 6B / 32B | 中英双语、支持多轮对话、适配国产算力 |
Baichuan(百川) | 7B / 13B / 53B | 高性能中文支持,13B 为通用模型标杆 |
Qwen(阿里通义) | 7B / 14B / 72B | 多模态支持、性能优异、逐步开源 |
InternLM(上海 AI 实验室) | 7B / 20B / 104B | 中文能力强,代码能力也较强 |
二、闭源 LLM
OpenAI
名称 | 参数量 | 特点 |
---|---|---|
GPT-3.5 / GPT-4 / GPT-4o | 未公开 | 商业最成功产品,GPT-4o 支持多模态、低延迟 |
Google DeepMind
名称 | 参数量 | 特点 |
---|---|---|
Gemini 1 / 1.5 | 未公开 | 多模态能力突出,与 Google 产品深度融合 |
Anthropic
名称 | 参数量 | 特点 |
---|---|---|
Claude 1 / 2 / 3 | 未公开 | 长上下文窗口、注重安全、类人风格强 |
三、专业方向模型
-
代码生成类:
-
CodeLlama(Meta)、Phind-CodeLlama(Phind)
-
Deepseek-Coder(中文)、StarCoder(BigCode)
-
-
多模态类(图像+文本):
-
GPT-4o(OpenAI)、Gemini(Google)、Qwen-VL(阿里)、InternLM-XComposer
-
-
语音+文本类:
-
Whisper(OpenAI)、GPT-4o(支持语音输入)
-
四、如何选择模型?
场景 | 推荐模型 |
---|---|
多语言、通用问答 | GPT-4、Claude 3、Gemini |
轻量本地部署 | Mistral 7B、Qwen 1.5 7B、LLaMA 3 8B |
中文场景 | ChatGLM3、Baichuan2、Qwen1.5、Deepseek |
多模态 | GPT-4o、Gemini、Qwen-VL |
编程 | Phind、Deepseek-Coder、CodeLlama |