信息科学与工程

基于显著性引导增强与改进Faster-RCNN的遥感图像目标检测方法

  • 刘洋 , 1 ,
  • 时富斌 1 ,
  • 王竹筠 1 ,
  • 徐晓淼 2
展开
  • 1. 沈阳航空航天大学 自动化学院,沈阳 110136
  • 2. 火箭军 军事代表室,沈阳 110043

刘洋(1977-),女,辽宁沈阳人,副教授,博士,主要研究方向:遥感图像及模式识别,E-mail:

收稿日期: 2024-03-29

  网络出版日期: 2025-02-05

基金资助

国家自然科学基金(62003224)

辽宁省教育厅基础研究项目(JYT2020042)

Saliency guided enhancement and improved Faster-RCNN for object detection method in remote sensing images

  • Yang LIU , 1 ,
  • Fubin SHI 1 ,
  • Zhujun WANG 1 ,
  • Xiaomiao XU 2
Expand
  • 1. College of Automation,Shenyang Aerospace University,Shenyang 110136,China
  • 2. Military Representative Office,A Rocket Force,Shenyang 110043,China

Received date: 2024-03-29

  Online published: 2025-02-05

摘要

目标检测作为遥感图像处理领域的关键任务之一,一直是遥感图像处理的研究热点。尽管深度学习方法在此领域取得了显著进展,但在应对遥感图像的尺度变化和复杂背景时,仍面临着不小的挑战,这在一定程度上限制了检测精度的进一步提升。为了解决这个问题,提出了一种创新的遥感图像目标检测方法,该方法融合了显著性引导的图像自适应融合模块,并对Faster-RCNN进行改进,提升目标检测的准确性。首先,在图像预处理阶段提出了一个基于显著性引导的图像自适应融合模块,有效地集成了图像的语义信息和浅层细粒度的细节,使模型能够优先考虑对象区域,同时最大限度地减少背景干扰。其次,在引入MobileNetV3作为Faster-RCNN的特征提取器后,提出了一个注意力增强特征金字塔网络,将注意力与上采样结合起来,进一步增强了目标特征并输出高质量的特征图,从而有效提升了多维特征的提取效果,为后续的目标检测任务提供了更为精准和丰富的特征信息。再次,设计了一个多尺度区域建议网络,这种设计能够更准确地捕获不同大小和形状对象的特征,进而增强特征的表达能力,有效提升目标的检测精度。最后,在DIOR和ROSD数据集上进行实验验证,所提出的网络模型相较于其他先进方法展现出了更高的检测精度,充分证明了其优越性和有效性。

本文引用格式

刘洋 , 时富斌 , 王竹筠 , 徐晓淼 . 基于显著性引导增强与改进Faster-RCNN的遥感图像目标检测方法[J]. 沈阳航空航天大学学报, 2024 , 41(6) : 50 -60 . DOI: 10.3969/j.issn.2095-1248.2024.06.006

Abstract

As one of key tasks in the field of remote sensing image processing,object detection has always been a research hotspot.Although significant progresses have been made in this field,the deep learning methods still face significant challenges in dealing with scale changes and complex backgrounds in remote sensing images,which limits the further improvement of detection accuracy to some extent.To address this issue,an innovative object detection method for remote sensing images was proposed,which integrated a saliency guided image adaptive fusion module and improved Faster RCNN to enhance the accuracy of object detection.Firstly,in the image preprocessing stage,a saliency guided image adaptive fusion module was proposed,which effectively integrated the semantic information of the image and shallow fine-grained details,allowing the model to prioritize the object region while minimizing background interference.Secondly,after introducing MobileNetV3 as the feature extractor of Faster RCNN,an attention enhanced feature pyramid network was proposed,which combined attention with upsampling to further enhance target features and output high-quality feature maps,effectively improving the extraction effect of multi-dimensional features and providing more accurate and rich feature information for subsequent object detection tasks.Furthermore,a multi-scale region proposal network was designed,which can more accurately capture the features of objects of different sizes and shapes,thereby enhancing the expression ability of features and effectively improving the detection accuracy of targets.Finally,experiments on the DIOR and ROSD datasets demonstrated that the proposed network model exhibits higher detection accuracy compared to other advanced methods,fully demonstrating its superiority and effectiveness.

遥感图像目标检测是指利用遥感技术从图像中识别和定位特定目标的过程。这项技术在城市规划1、土地利用2、交通指挥3和军事监视等多个领域发挥着重要作用。目前,遥感图像目标检测方法主要分为两大类:一类是基于传统图像处理的方法,依赖于模式识别和特征提取技术如模板匹配、种子点特征及径向梯度角特征等,这些方法通过匹配图像中与预设模板相似的区域来识别目标,但通常仅适用于特定类型的目标,应用范围有限,且泛化能力弱,效率低下。另一类是基于深度学习的方法,尤其是卷积神经网络,这类方法已成为研究热点并在计算机视觉领域取得显著成就。得益于计算机技术、传感器设备和GPU硬件的发展,深度学习方法能够自动学习和提取图像的深层次特征,显著提高了目标检测的精度,并为遥感图像处理带来了革命性突破。当前的研究主要聚焦于如何从图像中提取更多的特征,而往往忽视了一个关键问题,即目标常常被复杂的背景干扰,这直接影响了检测的准确性。同时,在遥感图像中经常出现目标在尺度上存在显著差异的情况,这进一步加大了遥感图像目标检测的难度。
针对复杂背景的情况,为了减少复杂背景和图像质量对目标检测任务的干扰,Sharma等4利用显著性检测,在特征层进行处理以改进提议生成和边界框回归问题,从而提升目标检测性能。Zhang等5提出了一个感知上下文的检测网络CAD-Net,通过学习目标的全局和局部上下文特征来增强目标特征,有效解决了背景干扰问题。Huang等6在网络中增加了一个特征图微调模块,使得对象的特征尽可能与对象中心对齐,从而提高了对象定位的精度。
针对目标尺度变化显著的情况,采用多维特征提取和特征融合成为了一个有效的解决方案。Lin等7提出了特征金字塔网络,这是一种在不同尺度特征图之间成功传递语义信息的方法,极大地增强了多尺度特征融合的效果。Li等8引入了引导流上采样模块以实现更好的跨尺度融合,并引入了多特征注意力模块,通过优化各层特征的权重来减少混合效应,从而确保了多尺度特征的完整性。Jiang等9提出的方法结合了区域注意力模块和transformer作为提取的主干,增加了特征提取的感受域。
针对遥感图像目标检测面临的挑战,诸如目标尺寸小、遮挡和复杂背景等问题,许多研究者们采用Faster-RCNN模型来提高遥感目标检测的准确性。Zhang等10通过优化锚点配置和特征提取策略,有效提高了遥感图像中小型飞机检测的准确率。Luo等11通过合适的感兴趣区域尺度和卷积神经网络来改进目标特征表示,提出了一种新型的遥感图像目标检测方法,取得良好的目标检测性能。Pan等12提出了一种改进的Faster-RCNN模型,用于在矿区进行高精度单株树木检测,通过数据增强、特征金字塔网络优化和改进的交叉损失函数,显著提高了树木检测的准确性和速度。
尽管针对遥感图像中存在复杂背景和目标多尺度的情况已开展了广泛研究并取得了一些成果,但目标检测精度仍有待进一步提高。本文提出了一种基于显著性引导的图像自适应融合模块结合改进的Faster-RCNN方法实现遥感图像中的目标检测,主要贡献有以下3个方面:
(1)为了减少复杂背景的干扰,提出显著性引导图像自适应融合模块用于图像预处理。该模块首先对图像块进行显著性检测,整合多个低级线索以实现在不同背景下突出显著对象的捕获,然后进行图像自适应融合,从而获得目标更加显著的高质量图像,同时减少了高级语义信息丢失。
(2)提出了一个注意力增强特征金字塔网络,将注意力与上采样结合,丰富多尺度融合特征的内容,改善多个尺度目标的特征表达,从而提高多尺度目标的检测效果。同时,以MobileNetV313作为主干网络,该网络能够自适应地调整通道特征响应,进一步增强模型的识别能力。
(3)设计了一个多尺度区域建议网络,包括不同尺度和比例的锚框。针对图像中目标的多尺度特性及易遭遮挡的难题进行优化,使得模型对于遥感图像中细微特征的检测能力得到了显著增强。

1 检测网络框架结构

针对遥感图像背景的复杂性和多尺度目标难以检测的情况,研究者们提出了各种图像预处理和目标检测技术来改善图像质量并提高目标检测准确率。本文提出了一个新的框架,通过结合显著性引导的图像自适应融合(saliency guided image adaptive fusion,SGIAF)模块和改进的Faster-RCNN网络增强图像中目标的特征表示,并提高目标检测的准确性。该方法结构流程图如图1所示。
图1 本文方法结构流程图
首先,基于显著性引导的图像自适应融合模块进行图像预处理,该模块包括显著性检测和图像自适应融合两个阶段,显著性检测用于提取显著对象,随后将显著性检测结果与原始图像进行图像自适应融合,达到增强图像目标特征的目的,如图1中上半部分所示。然后,增强后的图像被送入改进的Faster-RCNN方法实现目标检测。在改进的Faster-RCNN网络框架中,采用MobileNetV3作为特征提取器,并提出了用于特征整合的注意力增强特征金字塔网络(attention mechanism enhanced feature pyramid network,AMFPN),强化了模型的特征提取和整合能力,同时设计了多尺度区域建议网络(multi-scale region proposal network,MRPN),显著提升了模型对各种尺寸和形状目标的识别能力,如图1中下半部分所示。最后,通过MobileNetV3结合所提出的注意力增强特征金字塔网络和多尺度区域建议网络提取的特征被送入RoI Head实现目标检测。

1.1 显著性引导的图像自适应融合

1.1.1 显著性引导检测

在遥感图像处理中,当背景与目标之间纹理、颜色相似或者边界模糊时,检测算法可能错误地将背景区域识别为目标,严重影响检测结果。为应对这一问题,本文采用显著性检测技术14对背景进行评估,有效削弱背景信息的干扰,同时强化目标信息,从而有利于后续目标检测。该方法运用背景评估和对比度优化进行目标显著性检测。第一步,采用超分辨率15方法获取图像的超像素信息,为评估像素间的一致性提供了全面的数据支持;第二步,通过利用前景线索作为约束条件识别显著性区域,同时采用背景线索作为背景显著性的约束条件;第三步,通过优化成本函数来精确预测显著区域。
在第二步中,假设背景区域具有较高的边界紧密度,而目标区域的边界紧密度较低,这样显著性检测问题被转化为基于超像素超图的边界紧密度检测问题。边界紧密度B Con公式(1) 16所示。
B ConR)= | { p | p R , p B n d } | | { p | p R } |
式中:R为图像中的一个区域;p为该区域内的像素点;Bnd为图像边界的像素集合。边界紧密度B ConR)量化了区域R内部与图像边界相连的像素点比例,高紧密度的区域被判定为背景。
在第三步中,通过增强对比度优化成本函数。通过考虑背景概率加权增强对比度,调整了传统对比度计算方法,以更准确地标识显著区域。增强对比度w Ctrp)的计算如式(2) 16所示。
w Ctrp)= q I d a p p ( p , q ) × w s p a ( p , q ) × w b g ( q )
式中:d appp,q)为像素pq之间在外观属性上的差异;w spap,q)是考虑到pq之间空间距离的空间权重;wbgq)是基于背景概率的加权因子,用于调整对比度计算,使得增强对比度w Ctrp)能够更准确地标识显著区域。
这种方法有效地减轻了背景信息对目标检测的干扰,为遥感图像中的目标检测提供了一种高效的显著性检测策略。显著性引导检测的可视化结果如图2所示,这些显著图将被用于下一步图像自适应融合。
图2 显著性引导检测的可视化结果

1.1.2 图像自适应融合

针对显著性检测着重于图像的低级空间信息,而忽视了更高层次的语义信息问题,本文提出了一种创新的自适应融合策略,在考虑图像亮度水平的同时进行线性加权图像自适应融合。该方法能够从显著性图中提取有效信息,并与遥感图像进行自适应性融合,生成视觉上连贯且信息丰富的融合图像。图像自适应融合定义为图像I及其显著图S的亮度值LILS
L=   1 N i = 1 N I ( i )
式中:L为图像的亮度值;Ii)为第i个像素的灰度值;N为图像中像素的总数。
定义图像I的基础权重为WI,显著图S的基础权重为WSIS的融合权重 α I α S的表达式为
α I=WI L I L I + L S
α S=WS L S L I + L S
融合图像Fxy)定义为
Fxy)= α I Ixy)+ α S Sxy
在原始图像与显著图之间亮度分布差异显著的情境下采用亮度自适应融合方法,融合后的图像Fxy)同时包含低级空间与高级语义信息,能够显著地提高遥感图像的目标检测精度。

1.2 注意力增强特征金字塔网络

本文以Faster-RCNN17框架作为目标检测的基准,其原始框架的骨干网络是ResNet50。为了进一步提升模型的性能,本文引入MobileNetV3替代ResNet50作为新的骨干网络,主要考虑原因如下;首先,MobileNetV3在处理高分辨率遥感图像时可以有效减轻计算负担,同时确保特征提取的效率和准确性;其次,MobileNetV3引入的注意力机制进一步增强了网络提取和强调关键特征的能力,这有助于模型更准确地识别和处理遥感图像中的关键信息,从而提高特征提取的准确性和有效性。
针对遥感图像中的目标多尺度问题,特征金字塔网络(feature pyramid network,FPN)是一种广泛采用的主流处理方法。然而,跨尺度融合中的不同尺度特征之间的信息不协调导致融合输出失真。为了解决失真问题,提出了注意力增强特征金字塔网络结构,通过使用卷积块注意力模块(convolutional block attention module,CBAM)进一步提升模型对关键特征的提取能力,注意力增强特征金字塔网络结构如图3a所示,CBAM结构如图3b所示。首先,利用MobileNetV3生成多尺度特征图C3、C4、C5,对特征图C3—C5执行1*1的卷积,获得特征图F3—F5。接着,采用最近邻值插值算法对深层特征F5进行上采样,同时利用CBAM的特点,得到具有空间和通道注意力权重,以及突出关键特征的特征图。最终和F3、F4通过元素相加的方式实现了更精准和高效的跨尺度融合。该方法能够缓解信息传递过程中的信息丢失或不清晰问题,从而提高遥感目标检测的精度。
图3 注意力增强的特征金字塔网络和CBAM网络结构

1.3 多尺度区域建议网络设计

为了解决遥感图像目标检测的多尺度和目标遮挡的问题,本文提出一种新的多尺度区域建议网络。具体来说,设计了4种不同尺度(32,128,256,512)和5种不同比例(1:1,1:2,1:3,3:1,2:1)的多尺度区域建议网络。这些尺度和比例更为贴合遥感图像中那些尺度变化显著及被遮挡的目标,从而提高了模型在预测这些目标位置方面的精确度。
通过在每个卷积特征图的滑动窗口中心点创建多尺度区域建议网络,为遥感图像中的每个潜在目标生成多尺度候选框,提升对于不同形状和尺寸目标的适应能力。为了应对由此产生的大量候选框可能引入的冗余问题,本研究采用了非极大值抑制(non-maximum suppression,NMS)方法有效减少候选框数量,确保只有最具代表性的候选框被用于后续的目标检测流程。这些改进能够显著提升遥感图像目标检测的性能,特别是在处理多尺度和遮挡目标方面显示出了优异的能力。

2 实验结果与分析

2.1 数据集介绍

为了验证提出方法的有效性,采用当前公开的遥感图像目标检测DIOR18和ROSD19进行实验。DIOR是一个包含20个类别的遥感目标检测数据集,标注文件主要是水平方向的检测框。类别包括飞机(APL)、机场(APO)、棒球场(BF)、篮球场(BC)、桥梁(BR)、烟囱(CH)、快递服务区(ESA)、收费站(ETS)、大坝(DAM)、高尔夫球场(GF)、地面跑道(GTF)、港口(HA)、立交桥(OP)、船舶(SH)、体育场(STA)、储存罐(STO)、网球场(TC)、火车站(TS)、车辆(VE)和风车(WM)等。该数据集共23 463幅图像。本实验的数据分割方法遵循DIOR的官方注释,其中训练部分共使用11 725个样本,使用了11 738个样本进行测试。
ROSD是武汉大学2015年发布的用于遥感图像分析的数据集,主要用于对象检测任务。该数据集包含2 326张图像,涵盖了4个不同的类别,分别为飞机(airplane)、操场(playground)、立交桥(overpass)和油罐(oil tanks)。数据集中各类别的分布如下:飞机类别包含了446个图像,共包含4 993个实例;操场类别包含了189个图像,共包含191个实例;立交桥类别包含了176个图像,共包含180个实例;油罐类别包含了165个图像,共包含1 586个实例。这些图像的尺寸变化范围从512×512到1 961×1 193像素不等。为了评估这种方法的有效性,研究者将整个数据集按照7∶3的比例划分为训练集和测试集,以确保模型在不同类别和尺寸的图像上都能取得良好的性能。

2.2 评价指标

评价目标检测方法的性能指标有:AP(Average precision)表示每类平均精度,mAP(mean average precision)表示所有类的平均精度,mAP50表示预测边界框和真实边界框之间的交集与并集的比率(intersection over union,IoU)设置为0.5的平均精度,mAP50:95表示IoU设置为0.5到0.95的平均精度。mAP值越高检测性能越好。AP和mAP定义为
AP= 0 1 P ( R ) d R
mAP=   1 N c l s i = 1 N e l s A P i
式中:PR分别为精确度和召回率;N cls为类的总数。精度P和召回率R
P= T P T P + F P
R= T P T P + F N
式中:TPFPFN分别为真阳性、假阳性和假阴性的数量。真阳性满足IoU大于0.5和预测的标签是正确的这两个条件。

2.3 实验参数设置

在实验过程中,将显著性引导融合权重参数WIWS 分别设置为0.6和0.4。输入图像大小设置成640×640像素。实验在Nvidia RTX 3060 GPU上进行,批次大小为4,训练周期为100。优化使用SGD,学习率为0.001,动量为0.9,权重衰减为0.000 1。在测试过程中,使用GPU进行推理,保留置信度超过0.05的边界框,并将非极大值抑制的IoU阈值设置为0.7。

2.4 消融实验结果与分析

为验证这种方法的有效性,通过消融实验来评价不同模块对检测性能的具体影响,实验结果如表1所示。
表1 在DIOR数据集上的消融实验结果 (%)
Num Baseline SGIAF AMFPN MRPN P R mAP50 mAP50:95
1 67.0 58.6 61.6 43.1
2 71.2 60.6 64.1 44.6
3 74.1 62.3 67.5 47.3
4 76.6 65.3 69.8 49.3
(1) 显著性引导图像自适应融合(SGIAF)的效果。遥感图像的复杂背景易干扰浅层信息,使目标检测变得困难。引入显著性检测后,浅层特征提取得到增强,之后通过融合显著性图和原始的遥感图像,弥补了显著性图过分侧重浅层特征的不足,解决了深度卷积后图像语义信息缺失的问题,mAP50和mAP50:95分别提升至64.1%和44.6%。
(2) 注意力增强的特征金字塔(AMFPN)效果。随着卷积网络的深入,传统的特征金字塔在不同层次的信息丢失问题影响了目标感知能力。注意力增强的特征金字塔通过在上采样中加入CBAM减少信息丢失,增强浅层特征图的高级语义信息,mAP50和mAP50:95分别提升了3.4%和2.7%。
(3) 多尺度区域建议网络(MRPN)效果。针对遥感图像中目标尺度变化显著和易被遮挡的特点,多尺度区域建议网络适用于目标位置预测,mAP50和mAP50:95分别提升了2.3%和2%。

2.5 对比实验结果与分析

与其他检测方法的比较结果如表2表3所示,很明显,本文提出的模型在平均精度(mAP50)方面表现更为出色。如表2所示,所提出的算法与其他算法在RSOD数据集进行比较,提出的检测算法不仅在整体上mAP50实现了最高的93.8%,还在飞机(Aircraft)和油罐(Oiltank)类别AP上取得了92.5%和99.1%,这是显著性引导的图像自适应融合模块和注意力增强特征金字塔网络结合的优势所在,这两者结合提供了对图像中对象及其上下文的深入理解,并通过提出的多尺度区域建议网络策略有效地突出了多尺度特征,增强了目标的全局特征表现。这种方法在飞机和油罐的检测任务中尤为有效,显著地提高了网络的对象定位能力,并在这些类别上展现了卓越的性能。在立交桥(Overpass)类别上的检测精度不是最高,可能是因为样本数量过少导致的。
表2 不同检测算法在ROSD数据集上的 AP 比较 (%)
Method/Class Faster-RCNN SSD YOLOv3 YOLOv4 Retinanet YOLOv5 YOLOX FAOD NAS-FPN 本文
Aircraft 80.8 51.2 88.4 84.4 80.6 89.1 86.4 87.1 89.8 92.5
Playground 90.1 92.0 89.6 87.7 96.9 86.4 89.6 98.9 97.8 94.4
Overpass 78.7 53.7 86.9 73.8 90.3 80.4 88.4 56.6 92.5 89.1
Oiltank 90.2 98.4 88.9 95.6 96.7 97.2 95.4 97.9 89.4 99.1
mAP50 84.5 73.8 88.4 85.4 91.2 88.3 89.9 85.1 92.4 93.8
表3 不同检测算法在DIOR数据集上的 AP 比较 (%)
Method/Class Faster-RCNN YOLO3 Retinanet YOLO5 YOLOX PANet CF2PN DETR RAST-YOLO 本文
APL 53.6 74.8 62.6 80.2 83.2 60.2 78.3 54.2 84.4 81.0
APO 49.3 73.0 72.2 62.2 74.8 72.0 78.3 77 73.7 79.6
BF 78.8 69.0 68.2 76.7 78.2 70.6 76.5 71.5 75.0 82.3
BC 66.2 87.5 84.8 86.8 83.8 80.5 88.4 87.1 85.7 81.9
BR 28.0 32.0 50.5 35.4 30.6 43.6 37.0 44.6 37.6 44.3
CH 70.9 75.1 76.7 74.2 76.5 72.3 70.1 75.4 76.7 86.8
DAM 62.3 48.2 54.5 37.4 47.8 61.4 59.9 63.5 51.8 54.5
ETS 69.0 56.5 56.4 59.4 54.4 72.1 71.2 76.2 60.0 61.6
ESA 55.2 47.7 47.1 55.6 58.9 66.7 51.2 65.3 56.4 56.5
GF 68.0 75.2 74.9 61.9 73.2 72.0 75.6 79.3 74.2 71.5
GTF 56.9 65.6 67.7 66.8 74.3 73.4 77.1 79.5 68.9 78.2
HA 50.2 53.8 42.7 56 42.6 45.3 56.8 47.5 61.3 51.2
OP 50.1 52.0 52.6 53.7 46.5 56.9 58.7 59.3 55.2 53.3
SH 27.7 73.2 68.0 89.3 92.7 71.7 76.1 69.1 90.3 72.4
STA 73.0 30.2 46.6 68.7 87.0 70.4 70.6 69.7 70.0 88.9
STO 39.8 70.2 47.1 75.3 71.1 62.0 55.5 64.3 75.9 80.8
TC 75.2 83.6 77.4 86.4 80.4 80.9 88.8 84.5 87.0 88.3
TS 38.6 48.6 40.0 42.3 41.3 57.0 50.8 59.4 54.8 37.6
VE 23.6 43.9 37.1 50.2 51.3 57.2 36.9 44.7 51.6 69.8
WM 45.4 72.3 71.9 74.8 70.4 74.5 86.4 83.1 75.9 74.4
mAP50 54.1 61.6 59.0 64.8 65.9 66.1 67.3 67.8 68.3 69.8
表3中可以看出,所提出的算法与一些先进的目标检测算法比较,即使与具有出色全局建模能力的transformer模型相比,提出的方法也表现出良好的检测精度,mAP50达到69.8%。这归功于显著性引导的图像自适应融合模块更多关注图像中的对象和上下文信息,有助于网络在检测任务中更好地定位目标。从单类别实验结果可以看出,所提出的算法在如棒球场(BF)、烟囱(CH)、储罐(STO)和体育场(STA)这类具有复杂背景的类别上AP分别实现了82.5%、88.8%、78.1%和89.4%。在一些多尺度的目标上也表现出色,例如飞机(APL)的AP为91.0%、车辆(VE)的AP为69.8%。这些类别的结果充分说明了注意力增强特征金字塔网络和提出的多尺度区域建议网络,更有效地突出了多尺度特征并增强了目标的全局特征。所提出的算法在大坝(DAM)、快递服务区(ESA)、立交桥(OP)和火车站(TS)等类别中展现出的精度不是很好,可能是快递服务区和火车站等类别通常位于复杂多变背景的环境中,这会干扰显著性引导的图像自适应融合模块对目标的有效识别。其次,大坝和立交桥类别中的目标在遥感图像中通常体积过大,纵横比显著,导致多尺度区域建议网络和特征提取机制难以精准定位和识别。SGIAF、YOLOX和本文结果如图4所示。
图4 SGIAFYOLOX和本文提出的结果(其中边界框代表了模型检测出的结果)
使用不同类别的检测框来区分不同类别。可以看出,本文所提出的方法在各种场景下展示了出色的性能。图4a是输入图像,图4b是SGIAF结果图,该模块增强了图像的浅层特征,加大了背景与对象之间的对比度,便于后续的检测工作。图4中的舰船和飞机目标具有显著的尺度变化,而且存在目标尺寸较小的情况,结果中看出YOLOX20无法完全检测所有小目标,即图4c的第二行和第三行图像左上角和右侧远处的小目标未被检测到,可能是由于YOLOX特征图分辨率限制和锚框设置不合理。本文所提出的方法有效地解决了这个问题,提高了多尺度目标的检测能力。图中港口目标呈现出船只紧凑排列及背景遮掩的特点,所提出的方法依旧能够准确识别港口目标。综上所述,本文所提出的检测方法与其他方法相比具有显著优势。

3 结论

本文将显著性引导检测和图像自适应融合引入到目标检测任务中,通过网络结构的优化和多尺度区域建议网络的应用,显著提升了目标检测的效果。首先,对图像进行了显著性处理,通过整合多个低级特征来获取不同背景下图像中的显著目标,同时在图像自适应融合中考虑亮度信息以进一步增强目标的显著性;接下来,对Faster-RCNN进行改进,用MobileNetV3作为骨干网络替换ResNet50,同时,提出了注意力增强的特征金字塔,通过采用卷积块注意力上采样操作在多个尺度上增强目标特征表达;此外,设计了多尺度区域建议网络可以优化对多尺度和细微特征的捕获能力。实验结果证明了所提出模型相比于现有技术的优越性,展现了其在提高遥感图像目标检测精度方面的显著成效。针对未来的研究方向,将重点探索模型的轻量化设计,进一步提高其在资源受限环境下检测的模型适应性和实用性。
1
廖育荣,王海宁,林存宝,等.基于深度学习的光学遥感图像目标检测研究进展[J].通信学报202243(5):190-203.

2
冯长峰,王春平,付强,等.基于深度学习的光学遥感图像目标检测综述[J].激光与红外202353(9):1309-1319.

3
黄洁,姜志国,张浩鹏,等.基于卷积神经网络的遥感图像舰船目标检测[J].北京航空航天大学学报201743(9):1841-1848.

4
Sharma V K Mir R N.Saliency guided faster-RCNN (SGFr-RCNN) model for object detection and recognition[J].Journal of King Saud University-Computer and Information Sciences202234(5):1687-1699.

5
Zhang G J Lu S J Zhang W.CAD-net:a context-aware detection network for objects in remote sensing imagery[J].IEEE Transactions on Geoscience and Remote Sensing201957(12):10015-10024.

6
Huang W Li G Y Chen Q Q,et al.CF2PN:a cross-scale feature fusion pyramid network based remote sensing target detection[J].Remote Sen-sing202113(5):847.

7
Lin T Y Dollár P Girshick R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:936-944.

8
Li Z Q Li E Z Xu T Y,et al.Feature alignment FPN for oriented object detection in remote sensing images[J].IEEE Geoscience and Remote Sen-sing Letters202320(2):1-5.

9
Jiang X Z Wu Y H.Remote sensing object detection based on convolution and swin transformer[J].IEEE Access202311(3):38643-38656.

10
Zhang Y Song C L Zhang D W.Small-scale aircraft detection in remote sensing images based on Faster-RCNN[J].Multimedia Tools and Applications202281(13):18091-18103.

11
Luo M Tian Y N Zhang S W,et al.Individual tree detection in coal mine afforestation area based on improved faster RCNN in UAV RGB images[J].Remote Sensing202214(21):5545.

12
Pan Y Y Zhu N Z Ding L,et al.Identification and counting of sugarcane seedlings in the field using improved faster R-CNN[J].Remote Sensing202214(22):5846.

13
Koonce B.MobileNetV3[M]//Convolutional Neural Networks with Swift for Tensorflow.Berkeley:Apress,2021:125-144.

14
Ji Y Z Zhang H J Zhang Z,et al.CNN-based encoder-decoder networks for salient object detection:a comprehensive review and recent advances[J].Information Sciences2021546(2):835-857.

15
Dong Y N Liu Q W Du B,et al.Weighted feature fusion of convolutional neural network and graph attention network for hyperspectral image classification[J].IEEE Transactions on Image Processing202231:1559-1572.

16
Zhu W J Liang S Wei Y C,et al.Saliency optimization from robust background detection[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:2814-2821.

17
Ren S Q He K M Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence201739(6):1137-1149.

18
Cheng G Han J W.A survey on object detection in optical remote sensing images[J].ISPRS Journal of Photogrammetry and Remote Sensing2016117(6):11-28.

19
Long Y Gong Y P Xiao Z F,et al.Accurate object localization in remote sensing images based on convolutional neural networks[J].IEEE Transactions on Geoscience and Remote Sensing201755(5):2486-2498.

20
Ge Z Liu S T Wang F,et al.YOLOX:exceeding YOLO series in 2021[EB/OL].(2021-08-06)[2023-08-15].

文章导航

/