当前位置：首页 > ai >正文

【系列05】端侧AI：构建与部署高效的本地化AI模型第4章：模型量化（Quantization）

ai 2025/8/31 14:59:30

第4章：模型量化（Quantization）

在端侧设备上部署AI模型时，一个核心挑战是平衡模型的性能、大小和功耗。模型量化正是解决这一问题的关键技术，它能显著减小模型体积，并提高推理速度，同时尽可能地保持模型的精度。

什么是量化？原理与收益

量化的基本思想是减少模型中用于表示参数和激活值的比特数。在模型训练时，参数通常使用32位浮点数（FP32）进行存储，这提供了高精度，但也消耗大量的内存和计算资源。量化则将这些32位浮点数转换成低比特数表示，通常是8位整数（INT8）。

量化的原理可以概括为：对浮点数范围进行校准，并将其映射到更小的整数范围内。例如，将一个FP32的权重（如-1.5到1.5）映射到INT8的范围（-128到127）。在推理过程中，模型将使用这些低精度的整数进行计算，从而大大减少了所需的计算量。

量化带来的主要收益包括：

减少模型大小：将32位浮点数转换为8位整数，理论上可以将模型大小减少75%，这对于存储空间有限的端侧设备至关重要。
提升推理速度：许多硬件，特别是NPU，都专门为INT8计算进行了优化，它们处理整数运算的速度远快于浮点运算。这使得量化后的模型推理速度显著提升。
降低功耗：更快的计算和更小的内存访问量，意味着设备在处理AI任务时消耗更少的电量，延长了电池寿命。

量化类型：PTQ与QAT

量化技术主要分为两种类型，它们在实现方式和效果上有所不同：

后训练量化（Post-Training Quantization, PTQ）

PTQ是在模型训练完成后，直接对已有的浮点数模型进行量化。这种方法无需重新训练，实施起来非常简单快捷。其基本流程是：
1. 加载预训练的FP32模型。
2. 使用一小部分校准数据集来计算模型中各层参数和激活值的动态范围。
3. 根据计算出的范围，将FP32参数映射到INT8。
  
  PTQ的优点是简单高效，但由于它没有在训练过程中考虑量化带来的精度损失，可能会对模型性能造成轻微影响。
量化感知训练（Quantization-Aware Training, QAT）

QAT是在模型训练期间，模拟量化推理过程。其基本思想是在训练时就引入模拟量化操作，让模型“感知”到量化带来的变化，并调整其权重以最小化精度损失。
1. 在模型中插入模拟量化节点（Fake Quantization）。
2. 使用这些模拟节点对模型进行重新训练或微调。
3. 训练完成后，导出量化模型。
  
  QAT的优点是能获得比PTQ更高的精度，因为它在训练时就已经针对量化进行了优化。但缺点是它需要重新训练模型，耗时更长，过程也更复杂。

实践：使用TensorFlow Lite和PyTorch进行8位整数（INT8）量化

在实际开发中，主流框架都提供了简便的量化工具。

使用TensorFlow Lite进行PTQ量化：

tf.lite.TFLiteConverter提供了简单的API来将TensorFlow模型转换为.tflite格式并进行量化。你只需设置optimizations选项为tf.lite.Optimize.DEFAULT，并提供一个代表性数据集进行校准，即可完成PTQ量化。
使用PyTorch进行QAT量化：

PyTorch提供了torch.quantization模块来支持QAT。开发者可以在模型中插入量化感知模块，然后像正常训练一样对模型进行微调。这个过程需要开发者手动定义量化方案，并使用quant_aware_training方法进行训练。

选择PTQ还是QAT取决于你对精度和开发时间的要求。对于大多数场景，PTQ是一个快速且有效的解决方案；而对于对精度要求极高的应用，QAT则能提供更好的结果。

http://www.xdnf.cn/news/19077.html

相关文章：

嵌入式Linux驱动开发 - DTS LED驱动

管家婆辉煌ERP中如何查询畅销商品

java8浮点型算平均值

37 HTB Remote 机器 - 容易

字典解密助手ArchiveHelperWpfv1.0.12详细使用说明书

Apisix工作流程

界面钝化新策略：华南理工实现泡沫铜/Bi-In相变材料热循环性能显著增强

直流电机驱动与TB6612

Excel数组学习笔记

【开题答辩全过程】以基于JSP的养生网站系统为例，包含答辩的问题和答案

本地部署商业服务器 Glassfish 并实现外部访问

Rust 安装与运行指南

Jetson进行旋转目标检测推理实现大疆无人机飞行控制

Git 9 ，.git/index.lock 文件冲突问题（ .git/index.lock‘: File exists. ）

卷积神经网络为什么要填充（Padding）

基于无人机的风电叶片全自动智能巡检：高精度停角估计与细节优先曝光调控技术

在做题中学习（89）：合并区间

如何去除edge浏览器的灰色边框

idea2023.3遇到了Lombok失效问题，注释optional和annotationProcessorPaths即可恢复正常

Redis与MySQL数据不一致问题

【MYSQL | 基础篇多表查询】

FunctionAI 图像生成：简化从灵感到 API 调用的每一步

Kingbase-Mysql兼容模式下LOAD DATA INFILE语法再体验

idea控制台从properties中取值然后打印出现控制台乱码问题

（论文速读）MAPTNet——少样本表面缺陷分割方法

Java图形图像处理【基础篇】【二】

前端-什么是Vue

DMZ层Nginx TLS 终止与安全接入配置实战20250829

OpenCV 图像轮廓检测与相关技术全解析

三维铸件模型分解：基于微分几何与拓扑结构的分析方法