模型系列(篇三)-Llama
参考文档
-
【独家】万字长文带你梳理Llama开源家族:从Llama-1到Llama-3
-
大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析
-
强推!伯克利AI博士详解Llama 2的技术细节
Llama1
分词:BPE,用sentencepiece实现
词表大小:32k
模型大小:7B、13B、30B、65B
模型上下文长度:2k
模型结构:
-
采用基于解码器的结构
-
采用前置的RMSNorm作为层归一化方法
-
采用SwiGLU作为激活函数
-
采用RoPE作为位置编码
模型训练:
-
使用AdamW优化器
-
使用xformers库中的causal multi-head attention的高效实现,减少了内存占用和计算时间,显示了在处理大量数据时对效率的关注
补充说明:
-
2023年2月发布,各版本模型均在1T token上训练
-
训练数据:开源无标注数据集
-
不可商用
-
只是预训练模型,没有进行微调
Llama2
分词:和Llama1一样
词表大小:和Llama1一样
模型大小:7B、13B、34B(没有开源)、70B
模型上下文长度:4k
模型结构:对比Llama1,在34B、70B中引入了分组查询注意力机制(GQA)
模型训练:
-
进行了微调:基于Llama2,通过SFT、RLHF(拒绝采样、近端策略优化,产出两个奖励模型:有用、安全这两个),产出Llama2-Chat模型
补充说明(对比Llama1):
-
2023年7月发布,各版本模型均在2T token上训练
-
训练数据:开源无标注数据集、开源指令数据集、超过一百万个新的人类标注示例
-
可以商用
-
基于Llama2,2023年8月发布Code-Llama,有7B、13B、34B(没有开源)、70B这4个版本
Llama3
分词:采用了一种效率更高的tokenizer-tiktoken(和GPT4保持一致,tiktoken是OpenAI开发的一个用于文本处理的python库)
词表大小:128k
模型大小:8B、70B、400B(还在训练中)
模型上下文长度:8k
模型结构:
-
对比Llama2,在所有类型模型大小的模型上引入GQA
模型训练:
-
采用并行处理:数据并行、张量并行、模型并行
-
相比Llama2,在为下游基准测试制定一系列扩展法则(scaling laws)
-
相比Llama2,在PPO基础上增加了直接策略优化(DPO)
补充说明:
-
有两个模型:预训练Llama3、微调模型Llama3-instruct
模型对比:
-
8B:性能略优于Mistral 7B和Gemma 7B;70B:性能介于ChatGPT 3.5和GPT 4之间;400B:一个多模态、多语言版本的模型,性能与GPT 4或GPT 4V相当
-
2024年7月发布,各版本模型均在15T token上训练
-
训练数据:增加了多语言训练语料,代码数据扩充了4倍;开发了一个包含1800个提示的高质量人类评估集
结尾
亲爱的读者朋友:感谢您在繁忙中驻足阅读本期内容!您的到来是对我们最大的支持❤️
正如古语所言:"当局者迷,旁观者清"。您独到的见解与客观评价,恰似一盏明灯💡,能帮助我们照亮内容盲区,让未来的创作更加贴近您的需求。
若此文给您带来启发或收获,不妨通过以下方式为彼此搭建一座桥梁: ✨ 点击右上角【点赞】图标,让好内容被更多人看见 ✨ 滑动屏幕【收藏】本篇,便于随时查阅回味 ✨ 在评论区留下您的真知灼见,让我们共同碰撞思维的火花
我始终秉持匠心精神,以键盘为犁铧深耕知识沃土💻,用每一次敲击传递专业价值,不断优化内容呈现形式,力求为您打造沉浸式的阅读盛宴📚。
有任何疑问或建议?评论区就是我们的连心桥!您的每一条留言我都将认真研读,并在24小时内回复解答📝。
愿我们携手同行,在知识的雨林中茁壮成长🌳,共享思想绽放的甘甜果实。下期相遇时,期待看到您智慧的评论与闪亮的点赞身影✨!
自我介绍:一线互联网大厂资深算法研发(工作6年+),4年以上招聘面试官经验(一二面面试官,面试候选人400+),深谙岗位专业知识、技能雷达图,已累计辅导15+求职者顺利入职大中型互联网公司。熟练掌握大模型、NLP、搜索、推荐、数据挖掘算法和优化,提供面试辅导、专业知识入门到进阶辅导等定制化需求等服务,助力您顺利完成学习和求职之旅(有需要者可私信联系)
友友们,自己的知乎账号为“快乐星球”,定期更新技术文章,敬请关注!