当前位置: 首页 > java >正文

模型系列(篇三)-Llama

参考文档

  • 【独家】万字长文带你梳理Llama开源家族:从Llama-1到Llama-3

  • 大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析

  • 强推!伯克利AI博士详解Llama 2的技术细节

Llama1

分词:BPE,用sentencepiece实现

词表大小:32k

模型大小:7B、13B、30B、65B

模型上下文长度:2k

模型结构:

  • 采用基于解码器的结构

  • 采用前置的RMSNorm作为层归一化方法

  • 采用SwiGLU作为激活函数

  • 采用RoPE作为位置编码

模型训练:

  • 使用AdamW优化器

  • 使用xformers库中的causal multi-head attention的高效实现,减少了内存占用和计算时间,显示了在处理大量数据时对效率的关注

补充说明:

  • 2023年2月发布,各版本模型均在1T token上训练

  • 训练数据:开源无标注数据集

  • 不可商用

  • 只是预训练模型,没有进行微调

Llama2

分词:和Llama1一样

词表大小:和Llama1一样

模型大小:7B、13B、34B(没有开源)、70B

模型上下文长度:4k

模型结构: 对比Llama1,在34B、70B中引入了分组查询注意力机制(GQA) 

模型训练:

  • 进行了微调:基于Llama2,通过SFT、RLHF(拒绝采样、近端策略优化,产出两个奖励模型:有用、安全这两个),产出Llama2-Chat模型

补充说明(对比Llama1):

  • 2023年7月发布,各版本模型均在2T token上训练

  • 训练数据:开源无标注数据集、开源指令数据集、超过一百万个新的人类标注示例

  • 可以商用

  • 基于Llama2,2023年8月发布Code-Llama,有7B、13B、34B(没有开源)、70B这4个版本

Llama3

分词:采用了一种效率更高的tokenizer-tiktoken(和GPT4保持一致,tiktoken是OpenAI开发的一个用于文本处理的python库)

词表大小:128k

模型大小:8B、70B、400B(还在训练中)

模型上下文长度:8k

模型结构:

  • 对比Llama2,在所有类型模型大小的模型上引入GQA

模型训练:

  • 采用并行处理:数据并行、张量并行、模型并行

  • 相比Llama2,在为下游基准测试制定一系列扩展法则(scaling laws)

  • 相比Llama2,在PPO基础上增加了直接策略优化(DPO)

补充说明:

  • 有两个模型:预训练Llama3、微调模型Llama3-instruct

模型对比:

  • 8B:性能略优于Mistral 7B和Gemma 7B;70B:性能介于ChatGPT 3.5和GPT 4之间;400B:一个多模态、多语言版本的模型,性能与GPT 4或GPT 4V相当

  • 2024年7月发布,各版本模型均在15T token上训练

  • 训练数据:增加了多语言训练语料,代码数据扩充了4倍;开发了一个包含1800个提示的高质量人类评估集

结尾

亲爱的读者朋友:感谢您在繁忙中驻足阅读本期内容!您的到来是对我们最大的支持❤️

正如古语所言:"当局者迷,旁观者清"。您独到的见解与客观评价,恰似一盏明灯💡,能帮助我们照亮内容盲区,让未来的创作更加贴近您的需求。

若此文给您带来启发或收获,不妨通过以下方式为彼此搭建一座桥梁: ✨ 点击右上角【点赞】图标,让好内容被更多人看见 ✨ 滑动屏幕【收藏】本篇,便于随时查阅回味 ✨ 在评论区留下您的真知灼见,让我们共同碰撞思维的火花

我始终秉持匠心精神,以键盘为犁铧深耕知识沃土💻,用每一次敲击传递专业价值,不断优化内容呈现形式,力求为您打造沉浸式的阅读盛宴📚。

有任何疑问或建议?评论区就是我们的连心桥!您的每一条留言我都将认真研读,并在24小时内回复解答📝。

愿我们携手同行,在知识的雨林中茁壮成长🌳,共享思想绽放的甘甜果实。下期相遇时,期待看到您智慧的评论与闪亮的点赞身影✨!


自我介绍:一线互联网大厂资深算法研发(工作6年+),4年以上招聘面试官经验(一二面面试官,面试候选人400+),深谙岗位专业知识、技能雷达图,已累计辅导15+求职者顺利入职大中型互联网公司。熟练掌握大模型、NLP、搜索、推荐、数据挖掘算法和优化,提供面试辅导、专业知识入门到进阶辅导等定制化需求等服务,助力您顺利完成学习和求职之旅(有需要者可私信联系) 

友友们,自己的知乎账号为“快乐星球”,定期更新技术文章,敬请关注!   

http://www.xdnf.cn/news/19443.html

相关文章:

  • vscode克隆远程代码步骤
  • 合约服务架构-OOP 方式
  • leetcode 371 两个整数之和
  • 微软开源TTS模型VibeVoice,可生成 90 分钟4人语音
  • TFS-1996《The Possibilistic C-Means Algorithm: Insights and Recommendations》
  • 一些八股总结
  • 如何快速学习新技能
  • Redis 7.0 高性能缓存架构设计与优化
  • [Android] UI进阶笔记:从 Toolbar 到可折叠标题栏的完整实战
  • IDEA插件ApifoxHelper
  • C++ 登录状态机项目知识笔记
  • Nginx虚拟主机配置
  • CTFshow系列——命令执行web69-72
  • 数据结构 04(线性:双向链表)
  • 【大前端】React配置配置 开发(development)、生产(production)、测试(test)环境
  • 学习数据结构(15)插入排序+选择排序(上)
  • 算法——链表
  • 开源协作白板 – 轻量级多用户实时协作白板系统 – 支持多用户绘图、文字编辑、图片处理
  • 进程间通信IPC(interprocess communicate)
  • Introduction to GIS —— Chapter 4(Raster Data Model)
  • 解读IEC 60529-2013
  • MySQL 公用表达式
  • AI军团协同作战:Manus Wide Research深度解析
  • CAN数据链路层、网络层(ISO11898、15765)
  • JVM-指针压缩
  • Day 01(02): 精读HDFS概念
  • PortSwigger靶场之DOM XSS in document.write sink using source location.search通关秘籍
  • 多线程使用场景一(es数据批量导入)
  • 使用node-red+opencv+mqtt实现相机图像云端查看
  • 【openGauss】Oracle与openGauss/GaussDB数据一致性高效核对方案