-
城市场景的语义分割是实现自动驾驶的关键技术[1],通过识别图像中每个像素所属的类别,使自动驾驶车辆实现环境理解[2],进而可靠判断。近年来,随着深度学习技术的发展,基于深度学习的语义分割方法也日新月异。2014年,Long等[3]提出了第一个端到端的语义分割模型(FCN),随后,Handa等[4]将FCN扩展成一个对称的编码-解码结构SegNet,通过解码器逐步还原图像的空间位置信息,避免直接上采样导致分割细节不够精细的问题,U-Net[5]也采用类似的编码-解码网络。此外,还有一些研究用于提高图像全局信息的利用率,如空洞卷积[6]、多尺度预测[7]、条件随机场模型[8]等。
基于深度学习的语义分割技术主要围绕可见光图像展开,但是在夜间、大雾或强曝光等特殊的光照环境下,系统性能会显著下降,导致无法正确分割物体,这也是影响自动驾驶系统走向实际应用的重要原因之一。红外热成像相机根据物体发射的热辐射强度成像[9],具有不受光照环境影响的优点。在可见光/红外(RGB-IR)多波段图像中,RGB-IR图像由两个传感器相机同时捕获并进行配准[10]。其中,可见光图像记录的是场景的反射特性,光照良好时可以提供丰富的色彩特征和细腻的纹理特征,但光照不佳时图像信息不足[11]。而长波红外图像记录的是场景的热辐射特性,虽然是单色图像且缺乏细腻的纹理,但可在光照环境差的情况下提供人、车等热目标的显著特征。因此,联合使用可见光/红外多波段图像中的互补信息,可以提高自动驾驶系统的鲁棒性和准确性,使得全天候复杂交通环境下的安全行驶成为可能。
目前,基于深度学习的多波段图像语义分割方法主要采用编码-解码结构,根据特征融合方法不同可分为编码端融合[12-13]、解码端融合[14]和独立模块融合[15-16]三大类。Hazirbas等[12]提出编码端融合的FuseNet,采用VGG16模型构建两个并行的编码器和一个共用的解码器,在编码端将深度信息对应地相加到可见光通道中,是最直接的编码端融合结构。Sun等[13]提出的RTFNet网络也采取编码端融合结构,通过ResNet残差网络进行特征提取,并提出一种新的解码器来恢复特征图分辨率。Ha等[14]构建的MFNet轻量级网络采用解码端融合方法,将编码端捕获的多波段信息直接连接到解码端构成解码端融合架构,以减少对特征提取的干扰。以上模型都采用特征直接相加或级联的方式,而Lee等[15]提出的RDFNet网络结构通过构建MMF融合模块对多模态特征和多级特征进行筛选融合,属于独立模块融合结构。类似的工作还有Abhinav等[16]提出的AdaptNet网络,通过多尺度特征融合块MS构建独立模块融合结构。
多波段图像语义分割方法缺乏对融合特征的有效性判别,可能导致互补信息丢失或信息过度冗余。为了提高融合特征的鉴别性,本文对特征融合过程施加监督信号,提出了一种基于融合路径监督的多波段图像语义分割方法(SFNet)。通过将特征融合模块串联形成特征融合支路,在融合支路末端施加监督信号,使融合特征更具有鉴别性。此外,构建了Dice损失和交叉熵损失的混合监督训练模式,改善对于小目标的分割效果。
-
基于融合路径监督的多波段图像语义分割网络结构如图1所示。基础模型采用基于SegNet[4]的编码器-解码器架构,该架构可以灵活地将多波段图像的多级特征进行融合,提高信息利用率。首先利用SegNet模型构建两个并行的编码器,分别对可见光图像和红外图像进行特征提取,在编码末端得到两个512×10×10的高层语义特征图,代表编码输出的10×10特征图共有512个;然后将提取到的多波段高层语义特征直接级联,通过一个共用的解码器进行解码。
图 1 基于融合路径监督的多波段图像语义分割网络结构
Figure 1. Multi-spectral image semantic segmentation network with supervised feature fusion
本文模型包括4个相似的特征融合模块,将其互相串联形成特征融合支路。特征融合模块作为特征运输的桥梁,将融合后的高层语义特征(即上一个特征融合模块的输出)和当前编码端引出的中间特征再次进行融合,并分别连接到对应的解码端,以帮助解码器更好地恢复对象细节。在融合支路上设置Dice损失函数对融合过程进行监督,联合解码支路的交叉熵损失函数,利用二者之和作为网络的最终损失进行反向传播,构成混合监督训练模式。
-
首先构建特征融合模块,具体结构如图1中Fusion module所示。融合模块有两个输入,一是从编码端引出的多波段特征,将其级联后送入融合模块①端,通过3×3卷积进行融合预处理并将通道降为原来的1/2;二是来自高层的融合信息,利用模块②端的3×3卷积将其通道降为原来的1/2。将经过预处理的两组特征图级联,通过3×3卷积进行后处理,并将通道降为原来的1/2输出到③端;输出的融合信息连接到解码端,促进解码分割,同时将其作为下一个融合模块的输入。通过以上从高层到低层特征的传递,将特征融合模块串联成融合支路,利用高层融合信息指导低层信息融合。本文构建的特征融合模块避免了互补信息丢失和信息过度冗余等问题,使融合信息在捷径连接的过程中保持对齐,减少冲突。另外,为了防止过拟合,在特征融合模块输入端①、②添加ReLU激活函数来减少网络的稀疏性。
-
为了使融合特征更具有鉴别性,在独立的融合支路末端直接添加损失函数构成融合监督信号,利用监督信号促进特征融合过程。类似的工作有Lee等[17]提出的深度监督网络,该工作指出利用监督学习可以让中间隐藏层的学习过程更加直接和透明,减少分类的错误,从而使学习到的特征更加鲁棒和易区分。本文方法与深度监督网络工作的不同之处在于,深度监督复用了同一条网络支路,而本文基于融合模块构建了一条独立的新支路,并对其施加不同的监督信号。
首先,使用图像分割中常用的交叉熵损失函数对融合支路进行监督,其具有求导方便、易于训练的优点,交叉熵损失函数
$ L $ 如式(1)所示。交叉熵损失函数对每个类别具有相同的关注度,易受类别不平衡因素的影响,因此为了提升对小目标的分割精度,使用Dice损失函数[18]对融合支路进行监督。Dice损失函数最初用于医学图像分割,它以交并比最大为优化目标,可以从较大的背景区域中将前景目标分离出来,防止预测结果偏向于背景,具有较强的检测小目标区域的能力,Dice损失函数$ (DL) $ 如式(2)所示。本文在解码支路使用交叉熵作为损失函数,在融合支路使用Dice损失函数作为监督信号。最后,使用Dice损失函数和交叉熵损失函数之和作为网络的最终损失函数进行反向传播,构建混合监督训练模式,最终的损失函数$ {L}_{\rm{total}} $ 见式(3)。其中:n为数据集中分割类别的个数;
$ {p}_{i} $ 和$ {g}_{i} $ 分别代表预测分割值和标签值。 -
计算机硬件配置为Intel Core i7-7700k CPU,GeForce GTX 2080Ti GPU,操作系统为Ubuntu 16.04 LTS,计算框架为Python 3.6.6,Cuda 9.0,Cudnn 7.2以及Torch 0.4.1。网络训练过程中将图片分辨率统一设置为320×320,参数学习采用带动量的小批量随机梯度下降方法,为解决训练期间出现的轻微过拟合问题,在卷积层之后添加L2正则化。训练批次大小为4,最大迭代次数tmax=400,初始学习率η0=0.01。训练过程中学习率
$ {\eta }_{t} $ 随迭代次数t使用poly策略衰减至0,其表达式为 -
对比实验在两个多波段语义分割数据集上展开。数据集1是课题组自行构建的夜间道路场景图像语义分割数据集,共有541组配准的RGB-IR图像及语义标签图,图片分辨率为400×300。语义标签设定为:汽车、自行车、行人、天空、树木、交通灯、道路、人行道、建筑、栏杆、路标、杆子、巴士共计13类物体,外加空类,代表13种物体之外的场景,本文模型的训练与评估过程不包括空类。数据集2是Ha等[14]针对自动驾驶问题构建的城市场景RGB-IR图像语义分割数据集,共包含1569组分割图像(其中820张图片来自白天,另外749张图片来自夜晚),图片分辨率为480×640。语义标注中提供了在交通环境中常见的8种障碍物及背景标签,本文在数据集2上的实验不计算背景标签。
-
在算法评估中,采用每个类别的分割准确率(Acc)、联合交叉概率(IoU)、Acc和IoU在所有类别上的平均分割准确率(mAcc)及平均联合交叉概率(mIoU)指标对语义分割性能进行定量分析,公式如下:
其中:N代表类别数;
$T{P}_{i}=\displaystyle\sum\limits_{k=1}^{K}{P}_{ii}^{k}$ 、$F{P}_{i}=\displaystyle\sum\limits_{k=1}^{K}{\displaystyle\sum }_{j=1,j\ne i}^{N}{P}_{ji}^{k}$ 、$F{N}_{i}=\displaystyle\sum\limits_{k=1}^{K}{\displaystyle\sum }_{j=1,j\ne i}^{N}{P}_{ij}^{k}$ 分别代表每个类别分割结果得到真正、假正和假负的值;K为测试图片数;$ {P}_{ii}^{k} $ 为在图片K中类别i被正确分类为i的像素数;$ {P}_{ji}^{k} $ 为在图片K中类j被错误地分类为类别i的像素数;$ {P}_{ij}^{k} $ 为在图片K中类别i被错误地分类为类别j的像素数。Acc、IoU、mAcc和mIoU在分割结果中得分越高,表明模型的效果越好。 -
消融实验主要分为三部分。首先,为了验证融合支路可以让高层融合指导低层融合,使信息的利用率更高,从而改善分割效果,本文设计了基于独立模块融合方法与融合支路方法的对比实验。独立模块融合方法是指在图1中多波段图像语义分割架构的基础上,利用两个3×3卷积代替图1中的Fusion module,通过它对级联后的多波段特征进行融合,并将其连接到解码端,结构如图2(a)所示。融合支路方法是指在本文模型基础上去掉融合支路末端的监督信号,结构如图2(b)所示。两种方法分别在两个数据集上进行实验,对比结果如表1所示。从表1可以看出,利用特征融合支路可以将分割结果mIoU值提升1.0~2.0,说明融合支路与独立融合模块相比可以利用更多的融合信息,提高语义分割效果。
Method Dataset 1 Dataset 2 mAcc mIoU mAcc mIoU Independent-module fusion 65.9 52.8 73.2 71.4 Fusion branch 67.1 53.9 75.9 73.1 SFNet* 67.3 54.4 76.2 73.3 SFNet 67.8 55.3 76.5 74.2 表 1 在数据集1和数据集2上的消融实验结果
Table 1. Ablation results of on dataset 1 and dataset 2
在融合支路末端直接施加监督信号,构成基于融合路径监督的分割模型,根据监督信号的不同,分别将交叉熵损失监督和Dice损失监督的模型称为SFNet*和SFNet,简化结构如图2(c)所示。在融合支路末端添加与分割支路相同的交叉熵损失监督信号时,实验结果见表1中的SFNet*。对比表1的实验结果可知,在融合支路末端添加交叉熵损失时,在两个数据集上的mIoU值和mAcc值与融合支路方法相比都有所提高,说明对融合路径设置交叉熵信号监督能提高融合特征的鉴别性,进而改善分割效果。
将融合支路末端的交叉熵损失替换成Dice损失,与解码分割支路上的交叉熵损失构成混合监督训练模式,实验结果见表1中的SFNet。对比SFNet*与SFNet的分割结果可以看到,Dice损失监督模型的mAcc没有明显提高,而mIoU值提升1%左右,这恰好体现了Dice损失函数的特点,以交并比最大化为目标进行参数更新,提升小目标的分割效果。图3示出了在特征融合支路上分别添加Dice损失和交叉熵损失的分割结果对比图,从图3中红色圆圈标注的地方可以看出,在特征融合支路上添加Dice损失监督信号时,模型对路标、杆子等细小物体的分割效果更优。
图4分别示出了表1中4组对比模型在数据集1的训练过程中,验证集的损失函数变化和mIoU变化情况。观察图4(a)损失函数变化曲线发现,在融合支路上加入损失函数进行融合监督之后,SFNet*和SFNet损失曲线下降较快,说明设置融合监督信号后加快了收敛速度,减少了训练时间。图4(b)mIoU值的变化曲线显示,加入Dice损失的混合监督信号方法与其他方法相比具有较好的分割效果。综上,基于融合路径监督的方法加快了模型收敛速度,同时能提升融合特征鉴别性,进而改善分割结果。
-
本文选取了目前较为成功的几种分割网络作为对比算法,其中包括FCN[3]、SegNet[4]和UNet[13]等经典的单模态图像语义分割方法,以及FuseNet[12]、MFNet[14]、RTFNet[13]和RDFNet[15]等多波段图像语义分割方法,分别在数据集1、2上进行实验。表2和表3分别示出了对比算法在两个数据集上的分割结果,表中粗体字表示分割最优值。结果验证了本文提出的基于融合路径监督的多波段图像语义分割模型具有较好的分割效果。
Method Car Bike Person Sky Tree Trafficlights Road Side-walk Building Fence Sign Pole Bus mAcc mIoU FCN 45.8 11.9 34.1 89.1 78.6 1.0 94.9 31.2 78.0 36.8 1.2 1.1 48.7 42.5 31.5 SegNet 62.3 41.6 64.1 92.4 88.3 0. 97.5 16.4 74.9 62.8 16.7 29.7 56.1 54.1 40.5 UNet 74.0 37.9 66.1 92.9 87.0 17.6 97.5 27.0 75.2 52.7 12.4 38.3 61.5 56.9 45.3 FuseNet 55.3 49.5 65.7 92.2 82.6 11.7 96.2 39.8 78.4 74.4 25.4 19.2 59.9 57.7 41.6 MFNet 69.1 24.8 57.9 92.8 89.6 25.1 96.8 18.1 73.8 51.1 15.2 36.9 58.3 54.6 43.7 RTFNet 71.9 48.0 62.4 93.0 90.1 29.4 97.7 42.8 80.1 62.5 24.3 35.8 65.6 61.8 51.2 RDFNet 80.9 47.3 64.2 91.5 88.6 35.5 98.3 45.4 79.3 72.3 25.6 34.7 72.5 64.3 52.9 SFNet 83.4 47.3 74.1 90.4 91.2 46.0 98.1 46.3 77.5 69.4 31.4 45.0 75.9 67.8 55.3 表 2 不同分割方法在数据集1上的分割结果
Table 2. Segmentation results of different segmentation methods on dataset 1
Method Car Person Bike Curve Car Stop Guardrail Color Cone Bump mAcc mIoU Acc IoU Acc IoU Acc IoU Acc IoU Acc IoU Acc IoU Acc IoU Acc IoU FCN 77.6 93.1 61.1 72.1 73.7 76.3 3.7 96.7 3.31 38.1 0. 0. 20.2 25.2 45.7 99.1 47.3 59.5 SegNet 88.8 95.7 71.9 79.4 69.4 80.3 54.7 97.5 42.5 42.3 2.5 2.8 58.3 58.4 46.5 97.0 59.2 61.5 UNet 86.3 94.4 84.5 85.1 69.2 76.7 63.1 98.3 34.3 36.0 0. 0. 49.2 39.3 79.7 99.8 62.7 66.2 FuseNet 93.1 97.1 85.1 89.2 80.4 89.1 76.6 98.6 53.6 32.3 0. 0. 88.5 65.4 85.1 99.1 73.4 71.4 MFNet 86.3 93.5 78.1 83.2 83.2 88.5 65.6 92.7 51.0 67.4 2.1 3.1 70.8 75.5 81.2 99.1 68.7 67.6 RTFNet 93.2 97.3 83.7 91.1 75.7 91.0 70.9 98.6 42.3 19.8 0. 0. 78.8 68.7 92.0 99.7 70.6 70.9 RDFNet 92.9 94.7 82.3 92.4 76.2 90.7 68.5 98.9 60.1 42.4 3.1 4.7 80.0 70.2 93.2 98.2 75.9 72.8 SFNet 93.4 97.2 85.8 89.7 79.5 90.2 71.7 99.1 63.5 47.0 2.5 3.6 84.4 68.0 93.1 99.9 76.5 74.3 表 3 不同分割方法在数据集2上的分割结果
Table 3. Segmentation results of different segmentation methods on dataset 2
表2示出了不同分割方法在数据集1上的分割结果,表中只显示了每个类别(不含空类)的Acc、mAcc和mIoU。从比较结果来看,在当前主流算法中,以独立模块融合方法为代表的RDFNet模型表现较好,分割结果mIoU值为52.9,而本文的SFNet方法与RDFNet相比,mIoU提高了2.4。从整体对比结果来看,本文方法不论在mAcc还是mIoU评价指标上都优于其他算法,在大多数类别上的像素准确率与其他方法相比也有较好的分割效果。特别是对交通灯、标志牌、杆子等小目标的分割像素准确率与其他算法相比有较明显的提高,验证了在融合支路末端添加Dice损失监督信号对小目标分割的有效性。
表3示出了不同分割方法在数据集2上的分割结果,由于该数据集中含有大量的背景像素,这对小目标对象的分割造成了很大的挑战,因此,为了消除背景类像素对整体分割效果的影响,在数据集2上的实验过程中不计算背景类像素。尽管如此,在数据集2上进行语义分割实验时,依然出现某些分割方法对护栏类别分割结果为0的情况,这是由于该类别在数据集2中所占比重较小(约占0.1%),因此没有被检测到。从表3的分割结果来看,本文方法的mIoU与mAcc值明显高于其他模型。
从表2和表3的分割结果可以看出,本文的SFNet模型在两个数据集上的mAcc和mIoU值均达到最高,体现了本文方法在不同的语义分割数据集上都具有良好的表现,鲁棒性较好。图5示出了不同方法在两个数据集上的语义分割结果。
此外,对于自动驾驶技术来说,图像分割的实时性也是决定其能否走向实际应用的一个重要因素。因此,为了评价模型的实时分割效果,利用NVIDIA GeForce GTX 2080 Ti显卡对上述语义分割网络的推理速度进行测量。对比在数据集1上输入图片分辨率为320×320的情况下,不同融合方法对一张图片进行分割所需的平均时间成本t和速度(FPS),其中FPS表示每秒可以分割多少张图像,分割性能和效果对比如表4所示。
Method t/ms FPS mAcc mIoU FCN 1.67 598.80 42.5 31.5 SegNet 2.69 371.75 54.1 40.5 UNet 2.24 446.43 56.9 45.3 FuseNet 3.07 325.73 57.7 41.6 MFNet 4.53 220.75 54.6 43.7 RTFNet 29.74 33.62 61.8 51.2 RDFNet 18.91 52.88 64.3 52.9 SFNet 6.14 162.87 67.8 55.3 表 4 不同模型推理速度和性能对比
Table 4. Inference speed and performance for different models
从表4中可以看到,RTFNet与RDFNet都使用卷积层数更深的ResNet基础网络构成,与其他基于VGG网络的方法相比,可以提取更多的图像特征,因此分割效果优于其他主流算法,但是使用更深的模型在一定程度上增加了网络运算量和模型参数,因此分割速度较差。本文模型使用VGG16基础网络搭建,模型参数较少,训练速度快;同时,本文模型构建融合路径监督策略,使融合特征更具有鉴别性,从而提升分割结果。从对比结果来看,本文方法的mIoU值比RDFNet高2.4,分割速度FPS约为RDFNet的3倍。综上,本文提出的基于融合路径监督的多波段图像语义分割方法不仅具有优良的分割结果,同时具有可靠的推理速度。
-
为了增强多波段图像融合特征的鉴别性,提高语义分割效果,本文提出一种基于融合路径监督的多波段图像语义分割方法。首先,利用独立融合模块将高层特征与低层特征串联形成融合支路,提高信息利用率;其次,对独立融合支路施加监督信号,不仅使融合特征更具有鉴别性,而且加快模型收敛速度,提高训练效率;最后,对融合支路施加Dice损失监督信号,与分割主支路的交叉熵损失构成混合监督训练模式,改善对于小目标的分割结果。在不同数据集上的实验结果显示,本文方法与同类算法相比,具有更好的分割效果和分割性能。
基于融合路径监督的多波段图像语义分割
Multi-spectral Image Semantic Segmentation Based on Supervised Feature Fusion
-
摘要: 可见光成像在夜间或天气恶劣情况下易受光照影响,降低了语义分割系统的性能,而同时使用可见光/红外多波段成像传感器可以缓解这个问题。提出了一种基于融合路径监督的多波段图像语义分割方法,在网络训练过程中直接对特征融合过程进行类别监督。首先,将分割网络中独立的特征融合模块组建为贯通的融合支路,利用高层特征指引低层特征融合;其次,对融合支路末端直接施加监督信号,以提升融合特征的鉴别性及网络的收敛速度;最后,为了改善对于小目标的分割效果,在融合支路上特别引入Dice损失,构成混合监督训练模式。在两个多波段图像数据集上的实验结果表明,与其他多波段图像语义分割方法相比,本文方法可以达到更优的分割效果,而且对小目标分割更有利。
-
关键词:
- 可见光/红外多波段图像 /
- 语义分割 /
- 特征融合 /
- 混合监督
Abstract: The performance of semantic segmentation systems using visible cameras usually reduces dramatically at night or in bad weather conditions, due to its susceptibility to the variable lights. Simultaneously using visible cameras and thermal IR sensors can alleviate this problem. Although there is some work that studied the semantic segmentation of RGB-IR images, few works attempted to improve the segmentation results by enhancing the discriminability of the fusion feature. Therefore, we propose a novel framework of multi-spectral image semantic segmentation based on the process of supervised feature fusion. Firstly, the independent feature fusion modules constitute a whole fusion branch in the semantic segmentation network, so that the fusion of high-level features can guide the fusion of lower-level features. Then, the segmentation supervision signal is directly applied to the end of the fusion branch to improve the discriminability of the fusion feature and the convergence speed of the network. Finally, a dice loss instead of the cycle loss is used as the supervision of fusion branch to improve the segmentation of small objects, which along with the cycle loss on segmentation branch leads to a hybrid supervision. The experimental results on two multi-spectral datasets show that, compared with other multi-spectral semantic segmentation methods, the proposed method can achieve better segmentation results and is more advantageous for small objects segmentation.-
Key words:
- multi-spectral images /
- semantic segmentation /
- feature fusion /
- hybrid supervision
-
表 1 在数据集1和数据集2上的消融实验结果
Table 1. Ablation results of on dataset 1 and dataset 2
Method Dataset 1 Dataset 2 mAcc mIoU mAcc mIoU Independent-module fusion 65.9 52.8 73.2 71.4 Fusion branch 67.1 53.9 75.9 73.1 SFNet* 67.3 54.4 76.2 73.3 SFNet 67.8 55.3 76.5 74.2 表 2 不同分割方法在数据集1上的分割结果
Table 2. Segmentation results of different segmentation methods on dataset 1
Method Car Bike Person Sky Tree Trafficlights Road Side-walk Building Fence Sign Pole Bus mAcc mIoU FCN 45.8 11.9 34.1 89.1 78.6 1.0 94.9 31.2 78.0 36.8 1.2 1.1 48.7 42.5 31.5 SegNet 62.3 41.6 64.1 92.4 88.3 0. 97.5 16.4 74.9 62.8 16.7 29.7 56.1 54.1 40.5 UNet 74.0 37.9 66.1 92.9 87.0 17.6 97.5 27.0 75.2 52.7 12.4 38.3 61.5 56.9 45.3 FuseNet 55.3 49.5 65.7 92.2 82.6 11.7 96.2 39.8 78.4 74.4 25.4 19.2 59.9 57.7 41.6 MFNet 69.1 24.8 57.9 92.8 89.6 25.1 96.8 18.1 73.8 51.1 15.2 36.9 58.3 54.6 43.7 RTFNet 71.9 48.0 62.4 93.0 90.1 29.4 97.7 42.8 80.1 62.5 24.3 35.8 65.6 61.8 51.2 RDFNet 80.9 47.3 64.2 91.5 88.6 35.5 98.3 45.4 79.3 72.3 25.6 34.7 72.5 64.3 52.9 SFNet 83.4 47.3 74.1 90.4 91.2 46.0 98.1 46.3 77.5 69.4 31.4 45.0 75.9 67.8 55.3 表 3 不同分割方法在数据集2上的分割结果
Table 3. Segmentation results of different segmentation methods on dataset 2
Method Car Person Bike Curve Car Stop Guardrail Color Cone Bump mAcc mIoU Acc IoU Acc IoU Acc IoU Acc IoU Acc IoU Acc IoU Acc IoU Acc IoU FCN 77.6 93.1 61.1 72.1 73.7 76.3 3.7 96.7 3.31 38.1 0. 0. 20.2 25.2 45.7 99.1 47.3 59.5 SegNet 88.8 95.7 71.9 79.4 69.4 80.3 54.7 97.5 42.5 42.3 2.5 2.8 58.3 58.4 46.5 97.0 59.2 61.5 UNet 86.3 94.4 84.5 85.1 69.2 76.7 63.1 98.3 34.3 36.0 0. 0. 49.2 39.3 79.7 99.8 62.7 66.2 FuseNet 93.1 97.1 85.1 89.2 80.4 89.1 76.6 98.6 53.6 32.3 0. 0. 88.5 65.4 85.1 99.1 73.4 71.4 MFNet 86.3 93.5 78.1 83.2 83.2 88.5 65.6 92.7 51.0 67.4 2.1 3.1 70.8 75.5 81.2 99.1 68.7 67.6 RTFNet 93.2 97.3 83.7 91.1 75.7 91.0 70.9 98.6 42.3 19.8 0. 0. 78.8 68.7 92.0 99.7 70.6 70.9 RDFNet 92.9 94.7 82.3 92.4 76.2 90.7 68.5 98.9 60.1 42.4 3.1 4.7 80.0 70.2 93.2 98.2 75.9 72.8 SFNet 93.4 97.2 85.8 89.7 79.5 90.2 71.7 99.1 63.5 47.0 2.5 3.6 84.4 68.0 93.1 99.9 76.5 74.3 表 4 不同模型推理速度和性能对比
Table 4. Inference speed and performance for different models
Method t/ms FPS mAcc mIoU FCN 1.67 598.80 42.5 31.5 SegNet 2.69 371.75 54.1 40.5 UNet 2.24 446.43 56.9 45.3 FuseNet 3.07 325.73 57.7 41.6 MFNet 4.53 220.75 54.6 43.7 RTFNet 29.74 33.62 61.8 51.2 RDFNet 18.91 52.88 64.3 52.9 SFNet 6.14 162.87 67.8 55.3 -
[1] ZIEGLER J, BENDER P, SCHREIBER M, et al. Making bertha drive: An autonomous journey on a historic route[J]. IEEE Intelligent Transportation Systems Magazine, 2014, 6(2): 8-20. doi: 10.1109/MITS.2014.2306552 [2] 吴骏逸, 谷小婧, 顾幸生. 基于可见光/红外图像的夜间道路场景语义分割[J]. 华东理工大学学报(自然科学版), 2019, 45(2): 122-130.
[3] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2015: 3431-3440. [4] BADRINARAYANAN V, HANDA A, CIPOLLA R. Segnet: A deep convolutional encoder-decoder architecture for robust semantic pixel - wise labelling[J]. IEEE Transactions on Pattern analysis an Machine Intelligence, 2017, 39: 2481-2495. doi: 10.1109/TPAMI.2016.2644615 [5] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. UK: Springer, 2015: 234-241. [6] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2018, 40(4): 834-848. [7] ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2017: 6230-6239. [8] ZHENG S, JAYASUMANA S, ROMERA-PAREDES B, et al. Conditional random fields as recurrent neural networks[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE, 2015: 1529-1537. [9] GADE R, MOESLUND T B. Thermal cameras and applications: A survey[J]. Machine Vision and Applications, 2014, 25(1): 245-262. doi: 10.1007/s00138-013-0570-5 [10] SORIA X, ANGEL SAPPA, HAMMOUDR, et al. Wide-band color imagery restoration for RGB-NIR single sensor images[J]. Sensors, 2018, 18(7): 2059-2076. doi: 10.3390/s18072059 [11] JIANG J, FENG X, LIU F, et al. Multi-spectral RGB-NIR image classification using double-channel CNN[J]. IEEE Access, 2019, 7: 20607-20613. doi: 10.1109/ACCESS.2019.2896128 [12] HAZIRBAS C, MA L, DOMOKOS C, et al. FuseNet: Incorporating depth into semantic segmentation via fusion-based CNN architecture[C]// Asian Conference on Computer Vision (ACCV). Cham: Springer, 2016: 213-228. [13] SUN YX, ZUO WX, LIU M, et al. RTFNet: RGB-thermal fusion network for semantic segmentation of urban scenes[J]. IEEE Robotics and Automation Letters, 2019, 4(3):2576 - 2583. [14] HA Q, WATANABE K, KARASAWA T, et al. MFNet: Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes[C]//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). USA: IEEE, 2017: 5108-5115. [15] LEE S, PARK S J, HONG K S. RDFNet: RGB-D multi-level residual feature fusion for indoor semantic segmentation[C]// 2017 IEEE International Conference on Computer Vision. Italy: ICCV, 2017: 4990-4999. [16] VALADA A, VERTENS J, DHALL A, et al. AdapNet: Adaptive semantic segmentation in adverse environmental conditions[C]// IEEE International Conference on Robotics & Automation. Singapore: IEEE, 2017: . [17] XIE S, GALLAGHER P, ZHANG Z, et al. Deeply-supervised nets[C]// Artificial Intelligence and Statistics. USA: AIST, 2015: 562-570. [18] MILLETARI F, NAVAB N, AHMADI S A. V-Net: Fully convolutional neural networks for volumetric medical image segmentation[C]// 2016 Fourth International Conference on 3D Vision (3DV). USA: IEEE, 2016: 565 - 571. -