当前位置: 首页 > ds >正文

8位量化简介(40)

8位量化

8位量化的作用是什么?
“LLM.int8()是一种不会降低性能的量化方法,它使大型模型的推理更易于实现。其关键在于从输入和权重中提取异常值,并以16位进行乘法运算。所有其他值都以8位进行乘法运算,并在反量化回16位之前量化为Int8。16位和8位乘法运算的输出相结合,产生最终输出。”
来源:8位量化
如果选择使用这种方法对模型进行量化,BitsAndBytes配置中的其他一些参数和默认值也适用:

  • llm_int8_threshold:6.0
  • llm_int8_has_fp16_weight:False
  • llm_int8_enable_fp32_cpu_offload:False

该阈值用于检测异常值,即需要以16位处理的值。在这种情况下,我们只需使用默认值即可。另外两个参数可能用于一些特殊且更高级的使用场景,因此在此不做处理。

不过,还有一个参数我们将单独用一节来介绍:llm_int8_skip_modules。

让我们将配置保持在最低限度,并以8位加载模型。就像处理半精度模型一样,我们可以使用from_pretrained()方法的quantization_config参数直接以8位加载模型:

bnb_config_q8 = BitsAndBytesConfig(load_in_8bit
http://www.xdnf.cn/news/18084.html

相关文章:

  • 铨林接纸机学习记录1
  • ramdisk内存虚拟盘(一)——前世今生
  • 按键序列常用示例
  • Mini MAX AI应用矩阵测评报告——基于旗下多款产品的综合体验与行业价值分析
  • 六大主流负载均衡算法
  • 分享一个基于Hadoop的二手房销售签约数据分析与可视化系统,基于Python可视化的二手房销售数据分析平台
  • Oracle按照特定列值排序和C#统计特定列值的所有行
  • p5.js 3D盒子的基础用法
  • 【解决笔记】MyBatis-Plus 中无 selectList 方法
  • RK3588消费级8K VR一体机 是否有坑?
  • ABP vNext+ WebRTC DataChannel 低延迟传感推送
  • 《JMeter核心技术、性能测试与性能分析》 教学大纲及标准
  • JavaScript性能优化30招
  • Nacos-5--Nacos2.x版本的通信原理
  • C#---StopWatch类
  • 【开源大模型和闭源大模型分别有哪些?两者的对比?部署私有化模型的必要性有哪些?】
  • 五、ZooKeeper、Kafka、Hadoop、HBase、Spark、Flink集群化软件的部署
  • @Autowired @Resource IDE警告 和 依赖注入
  • 代码随想录刷题Day33
  • C#控制台输入(Read()、ReadKey()和ReadLine())
  • 关于simplifyweibo_4_moods数据集的分类问题
  • 企业级Spring事务管理:从单体应用到微服务分布式事务完整方案
  • 【CUDA 编程思想】FusedQKVProj-分组量化矩阵乘法高效实现全流程解析
  • IT资讯 | VMware ESXi高危漏洞影响国内服务器
  • 软考 系统架构设计师系列知识点之杂项集萃(123)
  • 怎样使用数据度量测试
  • Spring 条件注解与 SPI 机制(深度解析)
  • 社区物业HCommunity本地部署手册
  • 51单片机-驱动蜂鸣器模块教程
  • 力扣400:第N位数字