边缘设备上的轻量化推理笔记

先固定可测指标

部署前先确定三组指标：输入尺寸、目标延迟和允许精度损失。没有这些边界，量化和剪枝就很容易变成“看起来更小”，但无法判断是否真的适合设备。

常见路径是从训练框架导出 ONNX，再转到推理引擎或厂商工具链。每多一次转换，就多一层算子兼容风险。复杂模型最好先做最小子图验证。

model.pt -> model.onnx -> int8 calibration -> target runtime

INT8 之后还要看内存峰值、DMA 访存、预处理耗时和后处理耗时。真正的端侧延迟通常不是单个卷积层决定的，而是完整数据链路决定的。