部署系列——神经网络INT8量化教程第一讲！

作者&投稿：苗琪（若有异议请与网页底部的电邮联系）

~ 神经网络量化已经成为广泛应用的技术，特别是INT8量化，它在处理大型模型和提高效率方面扮演着重要角色。2年前，作者通过NCNN和TVM在树莓派上部署简单的分类模型时，主要使用了PTQ量化方法。随着时间的推移，量化技术更加成熟，作者计划分享一系列教程，从基础到实践，重点关注TensorRT的量化方式，同时也会参考其他开源工具如Pytorch、NCNN、TVM和TFLITE。

量化是将高精度模型转换为低精度计算，如FP32转FP16或INT8。虽然FP16转换基本无损，但INT8量化更常见，因为它能更好地平衡精度和性能。INT8量化后的模型在保持大部分精度的同时，可以利用INT8的硬件优势，如NVIDIA的Tensor Cores。

量化技术已经在生产环境中广泛应用，各大公司如Google和NVIDIA都有相应的开源解决方案。TensorRT虽然不公开源码，但支持后训练量化，且最新的版本支持ONNX导出的量化模型。Pytorch Quantization是NVIDIA针对Pytorch的量化工具，支持PTQ和QTA。

在量化操作中，关键的概念是量化和反量化，前者将浮点数转换为整数，后者则是将量化后的值恢复为原始精度。对称量化，如TensorRT采用的，简化了计算，通过调整scale值来适应INT8范围。

卷积操作是量化的核心，通过im2col和sgemm转换为INT8运算。量化公式涉及scale值的处理，以及pre-tensor和pre-channel的策略，这有助于保持精度并优化计算效率。

后续内容将深入探讨非对称量化、实际部署中的代码细节，以及TensorRT、Pytorch和TVM的量化实践。如果你对此感兴趣，记得持续关注作者的更新。

什么是卷积神经网络?为什么选择卷积神经网络?
卷积神经网络是一种深度学习网络，主要用于识别图像和对其进行分类，以及识别图像中的对象。什么是卷积神经网络？人工神经网络是一个硬件和\/或软件系统，模仿神经元在人类大脑中的运转方式。卷积神经网络（CNN）通常会在多个全连接或池化的卷积层中应用多层感知器（对视觉输入内容进行分类的算法）的变体。CNN...

神经网络剪枝
深度学习模型的广泛应用带来了挑战，尤其是复杂且资源消耗大的VGG16等大型网络。研究发现，尽管神经网络中大部分神经元和权重看似冗余，但实际对结果影响仅占5-10%。这为模型压缩提供了可能，目标是使深度学习模型能在轻量级设备上部署。压缩方法主要包括剪枝和构建紧凑网络。神经网络剪枝的核心在于识别并去除...

图片分类网络ViT、MobileViT、Swin-Transformer、MobileNetV3、ConvNe...
ConvNeXt旨在通过借鉴Transformer的高效特性，提出一种全卷积的神经网络架构。它对标Swin Transformer，通过一系列实验表明，在相同的计算资源下，ConvNeXt不仅具有更快的推理速度，还能够达到更高的准确率。通过调整宏观设计、使用更高效的深度卷积和大型卷积核，ConvNeXt在性能上与Swin Transformer竞争。Efficient...

清华团队研发无透镜光电神经网络架构,提升端到端人脸识别隐私保护能力...
清华大学电子工程系陈宏伟教授团队研发出一项创新技术——无透镜光电神经网络架构（LOEN），该架构专注于提升端到端人脸识别的隐私保护能力，并助力新一代极简化机器视觉。LOEN利用无透镜传感器的高隐私特性，结合配套的光电智能神经网络，对于大规模智能感知应用具有重要支持，如智能安防、智能家居、自动驾驶等...

ResNets 是如何解决深度神经网络训练中的梯度消失和爆炸问题的?_百度...
当涉及到训练和部署使用ResNet的深度卷积神经网络时，蓝海大脑GPU服务器可提供强大的计算和显存资源来满足需求。蓝海大脑GPU服务器具有以下特点：配备最新一代的图形处理器（GPU），具备强大的并行计算能力，高效地处理ResNet的复杂网络结构和大量的训练数据。提供大容量的显存，以满足ResNet在训练和推理过程中...

gtx960显卡4g内存能跑yolov5神经网络吗?
能跑，甚至部署在openvino上的话用cpu都能跑几十帧

卷积神经网络中卷积层的意义?
卷积神经网络中卷积层的意义如下一、卷积云简介 1、卷积云是一种基于云计算的平台，用于训练和部署卷积神经网络模型。它提供了大规模的计算资源，使深度学习研究人员和开发人员能够快速训练和测试模型。2、卷积神经网络（CNN）是一种深度学习模型，可用于图像和视频处理。然而，训练CNN需要大量的计算资源和...

Yolov5s算法从训练到部署
本文详细介绍了使用PyTorch神经网络框架GPU版本，针对自定义数据集训练Yolov5s目标检测算法的全过程，并阐述了将训练结果转化为瑞芯微RK系列搭载的NPU加速单元可执行的rknn格式模型的步骤。首先，搭建PyTorch GPU环境，通过Anaconda虚拟Python环境，确保安装了与显卡驱动版本兼容的PyTorch GPU版本。查看CUDA版本，...

什么是深度学习
深度学习（DL）是机器学习中一种基于对数据进行表征学习的方法，是一种能够模拟出人脑的神经结构的机器学习方法。深度学习的概念源于人工神经网络的研究。而人工神经网络ANN（Artificial Neural Network）是从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络，简称为...

神经网络做图像分类一定要用到gpu吗?
GPU最大的价值一直是“accelerating”(加速)，GPU不是取代CPU，而是利用GPU的并行计算架构，来将并行计算的负载放到GPU上来处理从而极大的提升处理速度。GPU本质上在异构计算架构上属于协处理器，常见的协处理器除了GPU，还有TPU、FPGA、ASIC等。神经网络图像分割，有很多适合GPU来做并行处理的算法。而GPU相...

安源区18543204378： matlab中错误提示 Error using ==> plot Vectors must be the same lengths. - ？
车申洁维： if else语句用法不对function y=zhe15(x)%本函数实现国际通用的PCM量化μ律15特性近似% x为输入的序列,变换后的值赋给序列 yx=x/ma...

安源区18543204378： spss modeler怎样获取建模精度与验证精度 - ？
车申洁维： 一、获取数据 1、打开 IBM SPSS Modeler 客户端,点击左下角的 Server 按钮,选择要连接的 Modeler Server,这里需要说明的就是如果 SDAP 装在和 Modeler Client 在一台机器,那么就选择 Local Server; 如果不在同一台机器,而是和单独...

安源区18543204378： 用MATLAB建立bp神经网络模型,求高手,在线等？
车申洁维： Matlab神经网络工具箱提供了一系列用于建立和训练bp神经网络模型的函数命令,很难一时讲全.下面仅以一个例子列举部分函数的部分用法.更多的函数和用法请仔细查阅Neural Network Toolbox的帮助文档. 例子:利用bp神经网络模型建立z=...

安源区18543204378： matlab的工具箱比较全的在哪可以下载? - ？
车申洁维： 建议还是出去买一张碟,因为MATLAB比较全的安装文件就要用G计算,我安装了比较全的7.0版用了8G空间~

安源区18543204378： 如何帮助企业迁移到IPv6呢? ？
车申洁维： 业务与服务提供商大部分现有互联网基础架构都基于IPv4,但是随着新型移动设备的涌现,网站与应用将进一步吞噬仅剩的IPv4地址.随着IPv4地址逐渐耗尽,网络管理员...

安源区18543204378： 卷积神经网络的Java实现有哪些 - ？
车申洁维： 卷积神经网络有以下几种应用可供研究:1、基于卷积网络的形状识别物体的形状是人的视觉系统分析和识别物体的基础,几何形状是物体的本质特征的表现,并具有平移、缩放和旋转不变等特点,所以在模式识别领域,对于形状的分析和识别...

你可能想看的相关专题

星空见康网

部署系列——神经网络INT8量化教程第一讲！

你可能想看的相关专题