先固定可测指标
部署前先确定三组指标:输入尺寸、目标延迟和允许精度损失。没有这些边界,量化和剪枝就很容易变成“看起来更小”,但无法判断是否真的适合设备。
导出链路尽量短
常见路径是从训练框架导出 ONNX,再转到推理引擎或厂商工具链。每多一次转换,就多一层算子兼容风险。复杂模型最好先做最小子图验证。
model.pt -> model.onnx -> int8 calibration -> target runtime
量化不是最后一步
INT8 之后还要看内存峰值、DMA 访存、预处理耗时和后处理耗时。真正的端侧延迟通常不是单个卷积层决定的,而是完整数据链路决定的。
