Edge AI · 2026-04-27

边缘设备上的轻量化推理笔记

端侧推理不是把模型导出来就结束,而是让模型、算子、内存和实时性在同一块板子上达成协议。

先固定可测指标

部署前先确定三组指标:输入尺寸、目标延迟和允许精度损失。没有这些边界,量化和剪枝就很容易变成“看起来更小”,但无法判断是否真的适合设备。

导出链路尽量短

常见路径是从训练框架导出 ONNX,再转到推理引擎或厂商工具链。每多一次转换,就多一层算子兼容风险。复杂模型最好先做最小子图验证。

model.pt -> model.onnx -> int8 calibration -> target runtime

量化不是最后一步

INT8 之后还要看内存峰值、DMA 访存、预处理耗时和后处理耗时。真正的端侧延迟通常不是单个卷积层决定的,而是完整数据链路决定的。