【论文笔记】DeepLab系列_天天热头条

首页 > 聚焦 >

【论文笔记】DeepLab系列_天天热头条

发表时间：2023-05-21 10:28:21 来源：博客园

【深度学习】总目录

DeepLab系列是谷歌团队提出的一系列语义分割算法。DeepLab v1于2014年推出，随后2017到2018年又相继推出了DeepLab v2，DeepLab v3以及DeepLab v3+。

(资料图片)

DeepLab v1《Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs》两个创新点是空洞卷积（Atros Convolution）和基于全连接条件随机场（Fully Connected CRF），通过两个模块级联，在PASCAL语义分割挑战中获得了第一，准确率超过第二名7.2%。DeepLab v2《DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs》，提出了空洞空间金字塔池化（Atros Spatial Pyramid Pooling，ASPP）。DeepLab v3《Rethinking Atrous Convolution for Semantic Image Segmentation》，重新讨论了空洞卷积的使用，改进了ASPP结构，并把CRFs后处理给移除掉了。DeepLab v3+《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》，仿照U-Net的结构添加了一个向上采样的解码器模块，用来优化边缘的精度。语义分割面临的挑战信号下采样：连续的池化或下采样操作会导致图像的分辨率大幅度下降，从而损失了原始信息，且在上采样过程中难以恢复。空间不变性：以获取图像中物体为核心的决策，必然需要空间不变性/不敏感，固有地限制了模型的空间精度。换句话说，对于同一张图片进行空间变换（如平移、旋转），其图片分类结果是不变的。但对于图像分割，对一张图片进行空间变换后，其结果是改变的。多尺度特征：将不同尺度的特征图送入网络做融合，对于整个网络性能的提升很大，但是由于图像金字塔的多尺度输入，造成计算时保存了大量的梯度，从而导致对硬件的要求很高。1×1">DeepLab V11×1">亮点：空洞卷积

空洞卷积也叫扩张卷积或者膨胀卷积，简单来说就是在卷积核元素之间加入一些空格(零)来扩大卷积核的过程。相同kernel size的空洞卷积和标准卷积的权重shape是一样的，二者的差异在于空洞卷积改变了输入的采样方法，标准卷积是连续地、不间隔地采样，而空洞卷积是跳跃式地采样，跳跃的步长就是dilation(r)。当r=1时，空洞卷积和普通卷积一样。当r=2时，如下图所示，空洞卷积的感受野大小为7x7，r=3时，感受野大小为15x15。

亮点：CRF(Conditional Random Field)

输入图像经过多层卷积下采样后会导致分辨率大幅下降，这使得像素的位置信息丢失，导致还原图像尺寸的过程pixel的定位有偏失，体现为pixel-wise的最终预测结果不准确，这最主要表现在物体的边缘位置。为了解决这个问题作者采用了fully-connected CRF方法，将网络的输出作为CRF的输入，利用不同位置的像素类别信息关系，通过建立概率图的方式，有效缓解了边缘定位不准确的问题。在DeepLab V3中移除了。

网络结构

（1）使用VGG16作为backbone，和FCN网络一样将全连接层的权重转成了卷积层的权重，构成全卷积网络。第一个全连接层的改空洞卷积，通道数为1024，卷积核大小为3×3（FCN中是7×7），dilate rate设为12时（LargeFOV）效果比设为4时好。对于第二个全连接层（FC2）卷积核个数也由4096采样成1024。

（2）Maxpool略有不同，VGG论文中是kernel=2，stride=2，但在DeepLabV1中是kernel=3，stride=2，padding=1。

（3）skip subsampling：将最后两个Maxpool层的stride全部设置成1，不再下采样。并且最后三个3×3卷积采用了空洞卷积，系数r=2。

实验

下表为在PASCAL VOC2012验证集上，改变第一个全连接层kernel size和空洞卷积rate后网络的性能和训练速度。

DeepLab-CRF-7x7：直接将FC1按照FCN论文中的方法转换成7x7大小的卷积层，并且膨胀因子r=4（receptive field=224）。DeepLab-CRF：将7x7下采样到4x4大小的卷积层，同样膨胀因子r=4（receptive field=128），可以看到参数减半，训练速度翻倍，但mean IOU下降了约4个点。DeepLab-CRF-4x4：在DeepLab-CRF的基础上把膨胀因子r改成了8（receptive field=224），mean IOU又提升了回去了。DeepLab-CRF-LargeFOV：将7x7下采样到3x3大小的卷积层，膨胀因子r=12（receptive field=224），相比DeepLab-CRF-7x7，参数减少了6倍，训练速度提升了3倍多，mean IOU不变。DeepLab V2亮点: ASPP（Atrous Spatial Pyramid Pooling）

上图(a)为DeepLab-LargeFOV主干网络VGG16最后的全连接改卷积的部分，图(b)将Pool5输出的特征层并联4个分支，每个分支分别通过一个3x3的空洞卷积层，1x1的卷积层，1x1的卷积层（卷积核的个数等于num_classes）。最后将四个分支的结果进行Add融合即可。如右图所示，为了对中心像素（橙色）进行分类，ASPP通过使用具有不同rate的多个空洞卷积来获得多尺度特征。不同颜色的框表示中心像素在不同rate下的感受野。如果是以ResNet101做为Backbone的话，每个分支只有一个3x3的膨胀卷积层，卷积核的个数等于num_classes。

在论文中有给出两个ASPP的配置，ASPP-S（四个分支膨胀系数分别为2,4,8,12）和ASPP-L（四个分支膨胀系数分别为6,12,18,24），下表是对比LargeFOV、ASPP-S以及ASPP-L的效果。这里只看CRF之前的（beforeCRF）对比，ASPP-L优于ASPP-S优于LargeFOV。

网络结构

（1）以ResNet101作为backbone，将Layer3中的Bottleneck1的3×3卷积（stride=2）的stride设置为1，即不在进行下采样，同时3x3卷积层全部采用空洞卷积，系数为2。在Layer4中也是一样，取消了下采样，所有的3x3卷积层全部采用空洞卷积，系数为4。

（2）在backbone输出的Feature Map上并联四个分支，每个分支的第一层都是使用的空洞卷积，但不同的分支使用的膨胀系数不同（即每个分支的感受野不同，从而具有解决目标多尺度的问题）。当以ResNet101为Backbone时，每个分支只有一个3x3的空洞卷积层，卷积核的个数等于num_classes。

实验MSC表示多尺度输入，即先将图像缩放到0.5、0.7和1.0三个尺度，然后分别送入网络预测得到score maps，最后融合这三个score maps（对每个位置取三个score maps的最大值）。COCO就代表在COCO数据集上进行预训练。Aug代表数据增强，这里就是对输入的图片在0.5到1.5之间随机缩放。

使用ResNet-101取代VGG16作为backbone后，mIOU由65.76%提升到68.72。MSC提升了2.55%，COCO预训练提升了2.01%，数据增强提升了1.6%，LargeFOV（3×3空洞卷积，rate=12）提升了0.6%，池化金字塔提升了0.8%，利用CRF后处理后达到了77.69%。

DeepLab V3

文中有给出两个模型，分别是cascadedmodel和ASPPmodel，在cascadedmodel中是没有使用ASPP模块的，在ASPPmodel中是没有使用cascadedblocks模块的。作者说ASPPmodel比cascadedmodel略好点。包括在Github上开源的一些代码，大部分也是用的ASPPmodel。

Cascaded model

上图中，Block1，Block2，Block3，Block4是原始ResNet网络中的层结构，后面又增加了额外的Block5，Block6，Block7，结构和Block4一样，即由三个残差结构构成。如图(a)中所示，这么设计的原因是引入的stride使在更深的block中捕获long range information变得容易。比如图(a)中整个图像特征可以总结在最后一个小分辨率特征图中。但是连续的stride削弱细节信息，因此加入空洞卷积，并且根据output_stride调整空洞卷积的rate。图(b)是论文中提出的cascadedmodel，但在Block4中将第一个残差结构里的3x3卷积层以及捷径分支上的1x1卷积层步距stride由2改成了1（即不再进行下采样），并且所有残差结构里3x3的普通卷积层都换成了空洞卷积层。

从下表可以看出，随着添加更多的block，模型性能会提高，但提高的幅度会变小。增加block7使得ResNet-50略微降低了性能，但仍提高了ResNet-101的性能。

下表为以ResNet-50为backbone使用7个block时不同output_stride下的mIOU。当output_stride增大且应用空洞卷积时，mIOU从20.29%提升到75.18%，说明在语义分割中使用更多block级联时空洞卷积是很有必要的。

上面blocks中真正采用的膨胀系数应该是图中的rate乘上这里的Multi-Grid参数。下表是以cascadedmodel（ResNet101作为Backbone为例）为实验对象，研究采用不同数量的cascadedblocks模型以及cascadedblocks采用不同的Multi-Grid参数的效果。通过实验发现，当采用三个额外的Block时（即额外添加Block5，Block6和Block7）将Multi-Grid设置成(1, 2, 1)效果最好。

Parallel model（ASPP)

虽然论文大篇幅的内容都在讲cascaded model以及对应的实验，但实际使用的最多的还是ASPP model，ASPP model结构如下图所示：

这里的ASPP结构有5个并行分支，分别是一个1x1的卷积层，三个3x3的膨胀卷积层，以及一个全局平均池化层（后面还跟有一个1x1的卷积层，然后通过双线性插值的方法还原回输入的W和H）。然后通过Concat的方式将这5个分支的输出进行拼接（沿着channels方向），最后在通过一个1x1的卷积层进一步融合信息。

在并行分支加入image-level feature是因为作者为了解决空洞卷积带来的一个问题：

随着空洞卷积的rate增大，卷积核有效参数越来越少。比如标准卷积conv3×3，rate=1，只有在feature map最外面一圈会有卷积核参数超出边界而无效，当rate变大，越来越多外圈的位置是有卷积核参数失效的，用极限思想思考一下，如果rate=size(feature map)，那么每次卷积都是卷核中心对应的feature map像素点被计算了，卷积核参数也只有中心那个点没有失效，退化成了1×1卷积核。

为了解决这一问题，并且包含全局上下文信息，作者在并联结构中加入image-level feature。做法是先对输入的feature map全局平均池化（global average pooling），后接256通道的1×1卷积层，BN层，最后用户双线性插值的方法上采样到目标大小，即与ASPP输出的feature map尺寸相同。

下表是ASPP模型在output_stride=16的情况下，multi-grid和image-level features的效果。首先，在三个3×3卷积的并行分支中采用rate=(6,12,18)，然后block4中使用三种不同的multi-grid，可以看出multi-grid=(1,2,4)效果最好。多加一个并行分支rate=24会使得mIOU下降0.12%，使用image-level features可以提升0.63%。

两个模型比MG代表Multi-Grid，刚刚在上面也有说在ASPP model中采用MG(1, 2, 4)是最好的。ASPP三个3×3的空洞卷积rate分别为6，12，18Image Pooling代表在ASPP中加入全局平均池化层分支。OS代表output_stride，在训练时将output_stride设置成16，验证时将output_stride设置成8效果会更好。MS代表多尺度，和DeepLabV2中类似。不过在DeepLab V3中采用的尺度更多scales = {0.5, 0.75, 1.0, 1.25, 1.5, 1.75}。Flip代表增加一个水平翻转后的图像输入。COCO代表在COCO数据集上进行预训练。挑选COCO数据集中有VOC定义的类别的图，将VOC中不包含的类别当作背景类。

ASPP模型的效果（79.77%）好于Cascaded模型（79.35%），所以deeplab v3一般也是指ASPP的结构。

DeepLab V3+

空间金字塔池化模块网络能够通过不同空洞率的、具有不同感受野的空洞卷积或池化操作，编码多尺度上下文信息，而编码器-解码器结构可以通过逐步恢复空间信息来捕获更清晰的目标边界。deeplab v3+结合了这两种方法的优点。添加了解码器模块细化分割结果，特别是沿着对象边界。同时进一步探索了Xception模型，并将深度可分离卷积应用于空间空间金字塔池化和解码器模块，从而得到一个更快更强的编解码器网络。

空洞可分离卷积（atrous seperable convolution）

上图中（a）是深度卷积，单独的为每个channel进行卷积操作；（b）是点卷积用来融合channel间的信息。（a）和（b）就组成了深度可分离卷积。那如果将（a）中的标准卷积操作替换为空洞卷积，如图（c）所示就实现了带有空洞卷积的深度可分离卷积，论文称之为空洞可分离卷积（atrous seperable convolution）。论文应用空洞可分离卷积极大的减少所提出模型的计算复杂度与此同时维持了与原模型相似或者更好的模型效果。

Encoder

将Deeplab v3作为编码器模块，输出特征图包含256个通道数。DeepLab v3+以Xception作为骨干网络，并对其进行了微调(如下图所示）：

更深的Xception结构，原始middleflow迭代8次，微调后迭代16次所有maxpooling结构被stride=2的深度可分离卷积替代每个3x3的depthwiseconvolution后都跟BN和ReluDecoder

DeepLabv3直接将特征上采样16倍，无法成功地恢复目标分割的细节。因此，作者提出了一个简单而有效的解码器模块，如下图红色框内。编码器特征首先提前上采样4倍，然后与网络主干中具有相同空间分辨率的相应低级特征连接。同时应用一个1×1的卷积调整通道数（256个），在连接之后，应用几个3×3卷积来细化特征，然后使用双线性插值，将特征上采样4倍。

评估decoder中1×1卷积的作用

使用resnet-101，Conv2的特征图和256个3×3卷积，分别将low level features减少到8，16，32，48，64通道数，其中48通道效果更好。

设计3×3卷积结构

concat特征图之后，利用2个256通道的3×3卷积效果比用1个和3个要好，减少通道数或者减小kernel size都会使得效果变差。下面的Conv3是指，将特征图上采样两倍和Conv3特征图concat，再与Conv2特征图concat。

效果

当使用Xception作为DeepLabv3+的backbone时，为了比较精度和速度的变化，观察了mIOU以及Multiply-Adds。得益于空洞卷积，模型在训练时能够在不同分辨率下获取特征以及在模型验证时使用单一模型。

OS代表output_stride，在训练时将output_stride设置成16，验证时将output_stride设置成8效果会更好。Decoder表示是否使用本文提出的decoder模块MS代表多尺度，和DeepLabV2中类似。不过在DeepLab V3中采用的尺度更多scales = {0.5, 0.75, 1.0, 1.25, 1.5, 1.75}。Flip代表增加一个水平翻转后的图像输入。SC表示是否采用深度可分离卷积在ASPP以及decoder模块中COCO代表在COCO数据集上进行预训练。挑选COCO数据集中有VOC定义的类别的图，将VOC中不包含的类别当作背景类。JFT表示模型是否在JFT上预训练

以resnet-101为骨干网络时mIOU为80.57%，相同策略下以Xception为骨干网络时为81.63%，Decoder提升了0.29%。

参考

1.DeepLabV3网络简析

2.DeepLab系列（v1,v2,v3,v3+）总结

3.我对DeepLab V3的理解（基于V1和V2）

4.DeepLab系列

5.DeepLabv3+

【论文笔记】DeepLab系列_天天热头条

【论文笔记】DeepLab系列_天天热头条

火豹电子竞技俱乐部_关于火豹电子竞技俱乐部介绍

哪个视频播放器最好用没有广告_哪个视频播放器最好用

天天快讯:最新医学生求职信自荐信 医学毕业生求职自荐信汇总

音乐名人的励志故事 名人的励志故事-全球新视野

债务上限谈判暂停 特朗普敦促共和党议员采取强硬立场 焦点速读

联合阵线文本攻略 观焦点

漳州公积金贷款提前还款可“掌上办”|观热点

领导说这五句话的时候，点点头就好，别信，全是忽悠！|时讯

广西城市消费者满意度调查结果出炉：南宁市消费者满意度得分第一_每日速讯

焦点速递！空调压缩机坏了的表现图解大全_空调压缩机坏了的表现

【全球播资讯】诸老大玫瑰豆沙粽（诸老大豆沙粽）

生态蝶变，绘就美好画卷_短讯

知乎推出独立APP“盐言故事”，副总裁张荣乐：短故事创作者收入远超长网文_今亮点

达摩是哪个门派的开山祖师爷_达摩是哪个门派的开山祖师

新注册的qq号无法登陆微信_新注册的qq不能登录微信

焦点观察：妃常完美爷别撩月逗逗_重生之妃常完美

架豆角结荚期如何管理？架豆角结荚期措施！ 焦点快报

“2023年最火的华语歌手是AI孙燕姿”？

世界最新：湖北一景区网红浮桥坠车事故三问

快报：奉天热河是哪里 热河是哪里

天天时讯：芝罘区组织开展在建项目建筑工地防汛应急演练

再投1.755亿元持续助力城乡一体化发展-环球快播

土耳其的东亚血统西高东低，小亚细亚为什么有汉儿城？_最新

宫颈囊肿的症状和治疗（宫颈囊肿的症状有哪些）|视点

当前信息：欧股涨幅扩大，欧洲斯托克50指数涨1%

东安：文艺“轻骑兵”进园区，和弦清音共飨宾客_每日信息

硼酸粉撒在屋里有毒吗(硼酸粉撒在屋里是没有毒吗)

新洁能：5月18日公司高管肖东戈减持公司股份合计9800股

卡介苗的接种对象主要是_卡介苗的含义

聚焦：他走了……是每位新生儿妈妈都应感谢的人

速递！创新促发展，低碳赢未来！力佳科技亮相CIBF2023

世界时讯：中电联：本期中国电煤采购价格指数报49.16%

天天信息:支付宝辟谣：这些活动都是假的！

最新资讯：“中国旅游日”甘肃分会场：河西五市组团发力“撬动”丝路游

全球新动态：*ST美谷（000615）5月19日主力资金净买入668.19万元

全球新消息丨前4个月北京地区对中亚五国进出口整体增势良好

全球老龄化问题加剧 银发经济方兴未艾

来东湖感受武大龙舟队的速度与激情 焦点消息

微速讯：理想与信念的定义（理想与信念是什么简介介绍）

小弟的意思广东话_小弟的意思_今日播报

1盎司熊猫银币回收价格（2023年05月19日）_世界百事通

高质量发展要求下的我国废钢铁产业即将加速

汽车报道：现代起亚电动汽车市场份额超越内燃机车辆

管窥华帝2022年报：业绩稳步上扬，数字化构建新增长基点

文化之光“出圈出彩”，包河何以点亮“梦想”的星空？|每日热闻

美东时间3rd.jun.2020（美东时间）

观天下！末世穿书女配文有空间_末世穿书女配文

世界今日讯！宁波华夏科技投资有限公司

马桶安装预留尺寸图_马桶预留管道尺寸是多少

每日热议!5月18日基金净值：华夏鸿阳6个月持有期混合A最新净值0.6191，涨0.24%

要闻速递：美股异动 | 黄金板块走低 Fortuna Silver(FSM.US)跌超5%

8个月宝宝发烧出疹子_8个月宝宝发烧38度怎么办 重点聚焦

大商所、郑商所夜盘收盘，焦煤跌超5%

微信免单群的免单真相_微信免单怎么用|当前头条

全球热消息：热门：双环传动(002472.SZ)2022年度权益分派：每10股派0.8元 5月25日股权登记

世界快资讯：乙肝能治好吗_耽美爽文

世嘉水泵在哪_11款世嘉水泵多久更换？ 全球快播报

环球微资讯！中国别称_中国的别称有哪些

环球百事通！财政服务党委中心工作计划(实用4篇)

世界视讯！河南省公示22家“中华老字号”企业复核结果

天天滚动:吉利控股增持阿斯顿·马丁股份至17% 成为第三大股东

男性最想收到的5种礼物_男性最想收到什么礼物 焦点讯息

资讯：2023亚太机器人世界杯天津国际邀请赛：首现无人机赛 将成新亮点

这将是历史上最没悬念的欧冠决赛？

最新：江苏如皋：产业为“笔”，勾勒乡村振兴新图景

新生儿可以吃益生菌吗_新生儿可以吃乳酶生吗

cmcc无线网络密码设置（cmcc无线网络密码） 全球即时看

突然协商解约！中国女篮队长驰援国家队，名记透露关键信息_世界新视野

乡村振兴走访调研，推动基层减负增能_环球报资讯

世界要闻：建筑与房地产常用法律文书范本3

东方电缆：签订欧洲海上风电项目合同 天天讯息

焦点短讯！用现代科学仪器“看清”百年样式雷烫样

快看：全球首个！5G异网漫游是什么，如何使用？

邦定智慧获千万元Pre-A轮融资

康乃馨怎么扦插成活率高？方法在这里！

罚款1335万 笑果无限期停演

花的智慧 全球时讯

全省首个国防动员主题公园完工 将择期向市民免费开放_世界热闻

天天快讯:最新医学生求职信自荐信医学毕业生求职自荐信汇总

音乐名人的励志故事名人的励志故事-全球新视野

债务上限谈判暂停特朗普敦促共和党议员采取强硬立场焦点速读

联合阵线文本攻略观焦点

架豆角结荚期如何管理？架豆角结荚期措施！焦点快报

快报：奉天热河是哪里热河是哪里

全球老龄化问题加剧银发经济方兴未艾

来东湖感受武大龙舟队的速度与激情焦点消息

8个月宝宝发烧出疹子_8个月宝宝发烧38度怎么办重点聚焦

世嘉水泵在哪_11款世嘉水泵多久更换？全球快播报

男性最想收到的5种礼物_男性最想收到什么礼物焦点讯息

资讯：2023亚太机器人世界杯天津国际邀请赛：首现无人机赛将成新亮点

cmcc无线网络密码设置（cmcc无线网络密码）全球即时看

东方电缆：签订欧洲海上风电项目合同天天讯息

罚款1335万笑果无限期停演

花的智慧全球时讯

全省首个国防动员主题公园完工将择期向市民免费开放_世界热闻

【环球热闻】上海今天阴到多云有雨最高温度24度明日阳光上线

windows多个窗口切换快捷键多个窗口切换快捷键

消息称LG新能源正在开发4695电池

国家统计局：发布4月份能源生产情况独家焦点

《闪电侠》新预告和海报闪电侠蝙蝠侠超女出击全球今日讯

环球微动态丨民航局制定一系列措施确保雷雨季航班安全运行

蒋梦婕回应戛纳红毯造型争议：随便说我很喜欢天天观速讯

今天最新消息河南新乡多地发布暴雨红色预警环球热闻

【热闻】抖音月付在哪关闭具体操作步骤

【报资讯】ASCO大会召开在即创新药板块有望迎来催化

女性专属保险“爱她保”上线低至69元/年保什么？怎么买？

诚意药业：目前四款鱼油软胶囊保健食品在线上和线下进行开拓性销售

全球速讯：撑起民生保障伞经开区开展“个人养老金政策”宣传活动

去年以来滨州公安共立各类经济犯罪案件432起_头条焦点

早晨起床进行晨练是很多人的想法早起晨练的好处有哪些? 头条

【世界独家】台州路桥区11.15亿元挂牌1宗宅地将于6月16日出让

济南启德留学中介怎么样_启德留学中介怎么样当前快看