您的位置：首页 >聚焦 >

273FPS, mIoU 72!图像分割,只要这一个就够了!!!

2022-04-22 09:51:47 来源：程序员客栈

图像分割技术在医疗病灶分析、自动驾驶车道线分割、绿幕人像抠图等领域发挥着举足轻重的作用。相比目标检测、图像分类等技术，图像分割需要将每个像素点进行分类，在精细的图像识别任务中不可替代。

图1 图像分割应用

正因如此，DeepLabv3、OCRNet、BiseNetv2、Fast-SCNN等优秀算法层出不穷，然而在实际产业落地过程中往往需要综合考虑硬件性能、精度等多方面因素，对算法的需求也是苛刻的。往往业界算法在保障高识别精度的情况下，就会牺牲算法运行速度；反之追求速度，则会带来精度的大幅度损失。

图2 各算法速度与精度平衡情况示意

如何能同时实现速度和精度的均衡，在当前云、边、端多场景协同的产业大趋势下高标准满足产业需求，是各届研究人员致力投入的方向。

PP-LiteSeg就是这样一个同时兼顾精度与速度的SOTA（业界最佳）语义分割模型。它基于Cityscapes数据集，在1080ti上精度为mIoU 72.0时，速度高达273.6 FPS , （mIoU 77.5 时，FPS为102.6），超越现有CVPR SOTA模型STDC，真正实现了精度和速度的SOTA均衡。

图3 PP-LiteSeg速度与精度

更值得令人惊喜的是，PP-LiteSeg不仅在开源数据集评测效果优秀，在产业数据集也表现出了惊人的实力！例如在质检、遥感场景，PP-LiteSeg的精度与高精度、大体积的OCRNet持平，而速度却快了近7倍！！！

空口无凭，欢迎优秀的你直接试用！（记得Star收藏跟进最新状态）

传送门：

https://github.com/PaddlePaddle/PaddleSeg

PP-LiteSeg结构详解

那PP-LiteSeg为何可以拥有这么优秀的效果呢？

其基于编解码架构，提出三个创新模块：灵活的解码模块（FLD）、注意力融合模块（UAFM）、简易金字塔池化模块（SPPM）。具体而言，PP-LiteSeg模型首先使用轻量级STDCNet作为编码模块，然后将编码模块的输出作为SPPM模块的输入，得到具有全局上下文信息的特征图，最后使用FLD解码模块从深层到浅层不断融合特征图，得到分割结果。

图4 PP-LiteSeg结构图

灵活的解码模块（FLD）

为了消除传统解码模块的冗余，PP-LiteSeg提出了灵活的解码模块（FLD）。随着层级从深到浅，传统解码模块中特征图的尺寸逐渐增大，通道数保持不变。而FLD模块中特征图的通道数逐渐减小，可以平衡不同层的算量。同时，根据编码模块灵活调整解码模块中通道数，平衡编码模块和解码模块的算量，使得整个模型更加高效。

(a)传统解码架构 (b) FLD解码架构

图5 传统解码架构与FLD解码架构对比

注意力融合模块（UAFM）

PP-LiteSeg提出了统一注意力融合模块(UAFM)来有效地加强特征表示，而且设计了空间注意力模块（b）和通道注意力模块（c）。空间注意力模块使用输入特征图的空间相互关系来生成权重，表示空间维度不同像素点的重要性。通道注意力模块是使用输入特征图的通道相互关系来生成权重，表示不同通道的重要性。所以，UAFM充分利用了输入特征的空间以及通道之间的关系，加强了特征表示。

图6 (a) UAFM模块的结构图 (b) 空间注意力模块 (c) 通道注意力模块

简易金字塔池化模块（SPPM）

上下文融合模块是语义分割模型中不可或缺的一部分。基于PPM模块的设计思想，PP-LiteSeg设计了一种简易金字塔池化模块（SPPM）。SPPM模块主要操作：

使用空间金字塔池化操作来融合特征图的信息，其中有三个全局池化算子，分别输出1*1, 2*2, 4*4尺寸的特征图；对小尺寸的特征图执行卷积和上采样运算，得到通道和尺寸相同的特征图；将上一步的输出进行相加，执行以个卷积运算后，得到最终的特征图。和传统PPM模型相比，SPPM模块减小了中间特征图的通道数、移除了跳跃连接、使用加法算子替换级联算子。

图7 简易金字塔池化模块(SPPM)

正是基于这些模块的设计与改进，最终PP-LiteSeg超越其他方法，在1080ti上精度为mIoU 72.0时，速度高达273.6 FPS , （mIoU 77.5 时，FPS为102.6），实现了精度和速度的SOTA平衡。更多关于PP-LiteSeg的内容，请参考：

https://github.com/PaddlePaddle/PaddleSeg/tree/develop/configs/pp_liteseg

为了让开发者们更深入的了解PP-LiteSeg这个SOTA模型，解决落地应用难点，掌握产业实践的核心能力，飞桨团队精心准备了精品直播课！

扫码报名直播课

进入技术交流群

4月26日20:30，百度资深高工将为我们详细介绍精度和速度平衡的PP-LiteSeg，对其原理及使用方式进行拆解，更有汽车金属垫片缺陷分割实战，加上直播现场互动答疑，还在等什么！抓紧扫码上车吧！

【引用说明】

图1

1.辅助驾驶图片来源百度地图APP AR导航截图2.3D分割数据集来源于MRISpineSeg spine dataset3.人像抠图源于百度飞桨内部工作人员4.遥感图像源于中科星图 GEOVIS iBrain空天大数据智能解译产品图2-图7源于PP-LiteSeg论文

END

关键词：解码模块图像分割精度和速度