Multi-scale oriented object detection based on improved RoI Transformer in remote sensing images

Minhao LIU; Kun WANG; Ruijiao JIN; Tian LU; Zhang LI

doi:10.5768/JAO202344.0502001

Abstract

Oriented object detection is a crucial task in remote sensing image processing. The large-scale variations and arbitrary orientations of objects bring challenges to automatic object detection. An improved RoI Transformer detection framework was proposed to address above-mentioned problems. Firstly, RoI Transformer detection framework was used to obtain rotated region of interest (RRoI) for extraction of robust geometric features. Secondly, high-resolution network (HRNet) was introduced in the detector to extract multi-resolution feature maps, which could maintain high-resolution features while adapting to multi-scale changes of the target. Finally, Kullback-Leibler divergence (KLD) loss was introduced to solve angle periodicity problem caused by the standard representation of oriented object, and improve the adaptability of RoI Transformer to targets in arbitrary directions. The object localization accuracy was also improved through the joint optimization of bounding box parameters of oriented object. The proposed method, called HRD-ROI Transformer (HRNet+KLD ROI Transformer), was compared with the typical oriented object detection method on two public datasets, namely DOTAv1.0 and DIOR-R. The results show that the mean-average-precision (mAP) of detection results on DOTAv1.0 and DIOR-R datasets is improved by 3.7% and 4%, respectively.

Keywords

high-resolution network object detection of remote sensing image oriented object detection RoI Transformer

引言

基于深度学习的目标检测技术在遥感领域已广泛应用^[1]。不同于前视图像中的目标，俯视的遥感图像中的目标具有方向任意的特点(如图1所示)，依赖于水平感兴趣区域(horizontal region of interest, HRoI)的通用目标深度学习检测方法通常会引起预测边界框和真实边界框之间的错位^[2]，在检测大长宽比（如桥梁、大船等）且具有任意角度目标时会包含大量冗余的背景信息。此外，遥感图像中复杂背景、目标的形态变化^[3]、目标的密集分布^[4]进一步增加了旋转目标检测的难度，针对遥感图像的高精度的旋转目标检测依然具有挑战。

Figure 1.Comparison between remote sensing images (the first row) and natural images (the second row)

近年来，在基于深度学习的通用目标检测基础上发展出了多种旋转目标检测方法。通用目标检测主要回归目标区域的 $(x, y, w, h)$ ，其中 $(x, y)$ 表示HRoI的中心， $w$ 和 $h$ 分别表示HRoI的长度和宽度，而旋转目标检测额外回归一个方向值 $θ$ ，并输出目标区域旋转框 $(x, y, w, h, θ)$ 。MA J Q等学者设计了RRPN(rotated region proposal network)^[5]，通过对特征提取网络预定义的每一个anchor位置添加一些方向参数，以此生成大量不同尺度、长宽比、方向的anchors，其还提出了RRoIs (rotated region of interest)，可以将任意旋转候选区域投影到特征图。RRPN方法可以获得旋转的候选目标区域，提升旋转目标的检测精度，但是这些密集的旋转anchors消耗了大量的计算和存储资源^[6]。DING J等人提出了RoI Transformer^[3]，该方法使用空间变换将水平边界框表示的候选区域转换为旋转框，可以大大减少旋转anchor的数量并提高了检测精度。在RoI Transformer的基础上，HAN J M等提出了ReDet来提取目标的旋转不变特征^[7]，其以旋转等变网络为骨干网络生成旋转等变特征，可以准确预测目标方向，降低对方向变化建模的复杂性，其还提出了RiRoIAlign(rotation-invariant RoI Align)算法，对每个候选区域提取旋转不变特征，进一步提高了旋转目标的检测精度。RoI Transformer已成为当前最典型的旋转目标检测框架，然而，RoI Transformer采用的骨干网络ResNet^[8]会在提取特征时逐渐减小特征图的空间大小^[3]，因此它对目标的尺度变化非常敏感，对于不同分辨率图像的目标检测适应性不足。此外，RoI Transformer使用基于Smooth L1损失的回归方法来预测目标旋转角度，其无法解决旋转目标表示带来的角度周期性问题，其表现为角度边界不连续性^[9-10]以及类正方形问题。

基于RoI Transformer的旋转目标检测常用于双阶段(two-stage)目标检测，其包含生成目标候选区域和目标检测分类两个步骤。最近有学者提出了一些单阶段(one-stage)旋转目标检测方法，例如R3Det(refined rotation RetinaNet)^[11]，一种基于RetinaNet的端到端精细化旋转目标检测器，它采用从粗到精的渐进回归形式，首先使用水平anchor以达到更高的召回率，然后在后续精细化阶段使用精细的旋转anchor以获得更精确的定位。SASM (shape-adaptive selection and measurement) reppoints^[12]方法提出样本自适应选择和分配策略，根据目标的形状信息和特征分布动态选择样本。Oriented reppoints^[13]方法提出一种高效的质量评估和样本分类方法，还引入了一种空间约束来惩罚离群点，以实现鲁棒的自适应学习。其他典型的单阶段方法还包括SSD(single shot multibox detector)、YOLO(you only look once)及其改进方法^[14]等。在单阶段目标检测中，一种基于高斯分布的回归损失被提出，用来解决目标表示的角度周期性问题，提高了旋转目标的检测精度，其核心步骤是将旋转边界框转换为二维高斯分布，采用的损失包括GWD(Gaussian Wasserstein distance)^[9]、KLD(Kullback -Leibler divergence) ^[15]和KFIoU(Kalman filtering intersection over union)^[16]等。单阶段方法一般可以获得比双阶段方法更高的检测效率，但其检测精度也会受到一定的损失^[17]。

针对RoI Transformer对多尺度遥感图像旋转目标检测精度不足的问题，本文提出了HRD-ROI Transformer (HRNet + KLD ROI Transformer)方法。首先，采用原始的RoI Transformer检测框架获取RRoI，用于鲁棒的几何特征提取；其次，使用HRNet^[18]作为骨干网络，提升模型对多尺度目标检测的适应能力；最后，借鉴单阶段目标检测的损失函数设计思路，以KLD损失代替RoI Transformer检测框架中的Smooth L1损失，解决旋转目标表示带来的角度周期性问题，进一步提高ROI Transformer框架对旋转目标检测能力。

1　HRD-ROI Transformer

HRD-ROI Transformer使用RoI Transformer作为基本框架。其采用HRNet作为骨干网络，将高分辨率卷积和低分辨率卷积流并行连接，可在保持高分辨率特征提取的前提下提升模型对多尺度目标检测的适应能力。KLD损失用来代替Smooth L1损失，解决度目标表示周期性带来的角度边界不连续性和类正方形问题。

1.1　检测网络整体架构

HRD-ROI Transformer的整体架构如图2所示，主要包含4个部分。

Figure 2.Structure diagram of HRD-ROI Transformer

特征提取模块　采用带有特征金字塔的HRNet提取多层高分辨率特征（见1.2节）。

RPN模块　RPN模块将任意大小的特征图作为输入，生成一系列粗略的HRoIs。

RoI Transformer模块　RoI Transformer模块用于从HRoIs的特征图中生成RRoIs。首先，通过RoI Pooling或RoI Align对不同大小的HRoIs进行RoI提取，得到固定大小(默认为7×7)的RoI特征，然后将每个HRoI特征输入到全连接层中，并对其进行解码，得到相应的粗略RRoIs。

基于KLD损失的RCNN模块　类似于RoI Transformer模块，通过旋转RoI Pooling、旋转RoI warping或旋转RoI Align将不同尺寸的RRoIs进行旋转，RoI提取得到固定尺寸的RoI特征，再输入到全连接层进行分类和更加精细的边界框回归，其中以KLD损失调整边界框回归的结果，最终输出结果。

1.2　高分辨率网络

为了提升检测网络对不同尺度目标的适应性，本文采用高分辨率网络HRNet代替ResNet 作为骨干网络。HRNet的基本结构如图3所示，包含并行多分辨率卷积和重复多分辨率融合。

Figure 3.Structure diagram of HRNet^[18]

图3中conv. unit表示步长为1的3×3卷积，strided. conv表示步长为2的3×3卷积，upsample表示双线性上采样后进行1×1卷积。并行多分辨率卷积是指以一个高分辨率子网络作为第一阶段，并逐步增加一个由高分辨率到低分辨率的子网络，形成新的阶段，并将这些多分辨率子网络并行连接起来。重复多分辨率融合是指在各个并行子网络之间引入交换单元，使每个子网络能重复地从其他并行子网络接收信息。

该模型的主要特点是整个过程中特征图始终保持高分辨率，通过在高分辨率特征图主网络中逐渐并行加入低分辨率特征图子网络，不断进行不同网络分支之间的信息交互，同时保持强语义信息和精准位置信息。在RoI Transformer网络的基本结构中，FPN(feature pyramid networks)作为特征提取中重要的一个环节，是将低分辨率强语义的深层特征和高分辨率弱语义的浅层特征通过一种自上而下的方式进行特征融合，使得不同层次的特征增强^[19]，而HRNet并非是FPN的扩展，它不仅有逐层的特征融合，还有子网络之间多次重复地交换信息，可以持续保持高分辨率的特征。

1.3　基于KLD的参数联合优化

尽管RoI Transformer方法在旋转目标检测中具有良好的效率和精度，但由于其旋转目标表示方式带来的角度周期性，会存在角度边界不连续性(图4)和类正方形问题(图5)，导致模型训练的不稳定。此外，其采用的smooth L1 回归损失对目标表示的各个参数是进行独立优化的，使得损失对任何参数的欠拟合都很敏感，影响了旋转目标的检测精度。本文引入的KLD损失，将旋转目标表示为高斯分布基础上，采用联合优化的策略，可有效解决角度周期性问题，提高目标的检测精度。

Figure 4.Schematic diagram of angle boundary discontinuity

Figure 5.Schematic diagram of square-like problem

1.3.1　旋转目标表示的角度周期性

图4(a)是目标预测框的理想表示形式，黄色旋转框和绿色加粗旋转框分别表示目标的预测值和真值，其目标框的表示分别为 $(x_{p}, y_{p}, w_{p}, h_{p}, θ_{p})$ 和 $(x_{t}, y_{t}, w_{t}, h_{t}, θ_{t})$ ，两者只存在角度和中心点的细微差别。旋转目标表示一般有OpenCV表示方法^[20]和长边定义法^[21]。若采用OpenCV定义表示旋转框(图4(b))，会存在长短边交换的问题。由于OpenCV表示方法的定义中 $θ \in (0, π / 2]$ ，其锐角的一侧定义为 $w$ ，因此，图4(b)中的预测框角度 $θ_{p}$ 是短边与水平轴正方向的夹角，与图4(a)中的理想形式的 $θ_{p}$ 相差 $π / 2$ ，且预测框的长宽与真值相反，这种旋转框定义方式有可能会造成较大的回归损失，导致模型训练不稳定，尤其大长宽比目标，该问题会更加突出。若采用长边定义法表示旋转框(图4(c))，由于定义中长边与水平轴正方向的夹角 $θ \in (- π / 2, π / 2]$ ，图4(c)中与图4(a)中的预测角度 $θ_{p}$ 相差 $π$ ，因此 $θ_{p}$ 与 $θ_{t}$ 存在较大差异。

对于类正方形的目标(如图5中的棒球场，其长宽比接近于1)，若预测框的长边正好与真值的长边相反，对于长边定义法的目标表示方式， $θ_{p}$ 与 $θ_{t}$ 会相差 $π / 2$ ，同样会导致模型训练不稳定。

1.3.2　KLD损失

为解决ROI Transformer原有的目标表示方式存在角度周期性问题，本文在RoI Transformer框架中引入KLD损失。首先，将目标表示的旋转框 $(x, y, w, h, θ)$ 转换成高斯分布 $N (m, Σ)$ ：

$\begin{array}{l} Σ^{1 / 2} = R Λ R^{T} = \\ [\begin{matrix} \cos θ & - \sin θ \\ \sin θ & \cos θ \end{matrix}] [\begin{matrix} \frac{w}{2} & 0 \\ 0 & \frac{h}{2} \end{matrix}] [\begin{matrix} \cos θ & \sin θ \\ - \sin θ & \cos θ \end{matrix}] = \\ [\begin{matrix} \frac{w}{2} \cos^{2} θ + \frac{h}{2} \sin^{2} θ & \frac{w - h}{2} \cos θ \sin θ \\ \frac{w - h}{2} \cos θ \sin θ & \frac{h}{2} \cos^{2} θ + \frac{w}{2} \sin^{2} θ \end{matrix}] \\ m = {(x, y)}^{T} \end{array}$ （1）

式中： $R$ 表示旋转矩阵； $Λ$ 表示特征值的对角矩阵。在式( 1 )中，高斯分布具有以下几个属性^[10]：

属性1： $Σ (w, h, θ) = Σ (h, w, θ - π / 2)$

属性2： $Σ (w, h, θ) = Σ (w, h, θ - π)$

属性3： $Σ (w, h, θ) \approx Σ (w, h, θ - π / 2), w \approx h$

根据属性1，旋转目标的OpenCV表示方法造成的长短边的交换问题得以避免。根据属性2和3，旋转目标的长边定义法造成的类正方形问题也可以得到解决。综上，角度周期性因高斯分布的三角函数表示方式得以避免，表现出边界连续性。

预测框和真值对应的高斯分布 $N_{p} (m_{p}, Σ_{p})$ 和 $N_{t} (m_{t}, Σ_{t})$ 的KLD为

$D_{kld} (N_{t} ∥ N_{p}) = \frac{1}{2} [{(m_{p} - m_{t}]}^{T} Σ_{p}^{- 1} (m_{p} - m_{t}) + T r (Σ_{p}^{- 1} Σ_{t}) + \ln \frac{| Σ_{p} |}{| Σ_{t} |}) - 1$ （2）

显然， $D_{kld} (N_{t} ∥ N_{p})$ 中的每一项都是由部分参数耦合组成的，所有旋转框参数 $(x, y, w, h, θ)$ 都形成了一种链式耦合关系，使其在训练过程中相互影响，联合优化和自动调节。

最后，为了保证评估测度和回归损失之间的一致性，采用非线性变换将 $D_{kld} (N_{t} ∥ N_{p})$ 转换为近似IoU损失：

$l_{reg} = 1 - \frac{1}{τ + f [D_{kld} (N_{t} ∥ N_{p}])}$ （3）

式中： $f (\cdot)$ 表示一个非线性函数，对距离 $D_{kld} (N_{t} ∥ N_{p})$ 进行变换，如 $f (D) = \sqrt{D}$ 或 $f (D) = \ln (D + 1)$ ； $τ$ 是一个超参数，用来调节整体损失。

上述分析表明，基于KLD的损失可以保证旋转框参数 $(x, y, w, h, θ)$ 在训练过程中联合优化，优化一个参数，其余参数可以作为其权重动态调整，并且通过非线性变换使得该损失可以和评估测度保持一致性。相比Smooth L1损失的参数独立优化，基于KLD的损失理论上可以得到更高的目标检测精度。

2　实验和讨论

2.1　数据集

本文使用带有旋转目标标签的DOTA v1.0^[22]和DIOR-R^[23]数据集进行方法的测试和比较。DOTAv1.0 数据集的图像大小从800×800像素到20 000×20 000像素不等，包含各类具有各种方向、尺度和外观的目标，是迄今为止最具挑战性的旋转目标检测数据集，共包含2806张图片，将188282个目标实例分为飞机(plane, PL)、船舶(ship)和储罐(storage tank, ST)等15类，其中训练集、验证集和测试集的比例分别为1/2、1/6和1/3，更多有关各个类别的统计数据可以参考文献[22]。DIOR-R数据集是DIOR^[24]数据集的扩展，与DIOR数据集共享相同的图像，主要用于旋转目标检测。该数据集中有 23463 张图像和192518个实例，涵盖各类典型场景和 20 个常见目标类。DIOR-R中的目标类别包括飞机(airplane, APL)、机场(airport, APO)、棒球场(baseball field, BF)和篮球场(basketball court, BC)等。

2.2　评估标准

本文的目标检测结果主要采用精度 (precision, P)、召回率(recall, R)、平均精度均值 (mAP)、检测速度作为评价标准。精度及召回率公式如下：

$\begin{matrix} P = \frac{T_{p}}{T_{P} + F_{P}} \\ R = \frac{T_{P}}{T_{P} + F_{N}} \end{matrix}$ （4）

式中： $T_{p}$ 是真正例(true positive)数量； $F_{p}$ 为假正例 (false positive) 数量； $F_{N}$ 为假反例 (false negative) 数量。mAP是一种综合了准确率和召回率的评价标准：每个类别都可得到一条PR（precision-recall）曲线。计算曲线下的面积可得到该类别的平均精度AP(average precision)，mAP 则为各个类别 AP 的均值，是评判目标检测网络整体性能最常用的指标之一。

2.3　实现细节

实验基于i9-10920X 处理器，使用4个NVIDIA GeForce RTX-2080Ti GPU，内存为256 GB，利用mmrotate平台^[25]，以ImageNet数据集预训练好的模型进行骨干网络参数初始化。采用随机梯度下降算法(stochastic gradient descent，SGD)对模型进行训练，momentum为0.9，权重衰减为0.0001，初始学习率为0.005，共训练12 epochs，在第8和11个epoch时学习率衰减为前一阶段的1/10^[26]。

对于DOTAv1.0数据集，本文将所有训练集和验证集的原始图像以824的步长裁剪出1 024×1024像素大小的图像块(其中为避免目标在切割图像时被分割，保留图像重叠度为200)。对于DIOR-R数据集，图像大小保持800 × 800像素的原始大小。

训练集的图像块通过一组图像归一化、随机翻转、随机裁剪等数据增强预处理方式之后，输入到模型中用于训练。在DOTAv1.0数据集的实验中，使用训练集对模型进行训练，使用验证集对模型进行评价。对于DIOR-R数据集，则使用训练验证集进行训练，使用测试集对模型进行评价。

2.4　实验结果分析

表1和表2分别展示了HRD-ROI Transformer与典型的旋转目标检测方法在DOTAv1.0和DIOR-R数据集上的对比。针对旋转目标检测，双阶段算法的检测精度一般会高于单阶段算法^[17]，因为双阶段算法能在第一阶段提取的特定候选区域的基础上进行旋转框的精细化回归，而且相比于单阶段算法，正负样本更加均衡。

Method	Backbone	Loss	AP/%															mAP/%
Method	Backbone	Loss	PL	BD	BR	GTF	SV	LV	SH	TC	BC	ST	SBF	RA	HA	SP	HC	mAP/%
One-stage
Rotated RetinaNet	ResNet50	Smooth L1	89.7	75.0	40.8	64.1	66.5	67.7	85.8	90.7	62.6	65.7	54.4	62.0	62.6	52.2	54.5	66.3
R3Det	ResNet50	Smooth L1	89.5	73.2	44.4	65.3	66.9	77.2	87.2	90.8	57.9	66.2	51.3	63.2	72.1	53.0	54.6	67.5
S2ANet	ResNet50	Smooth L1	89.0	73.8	43.6	67.1	64.9	74.2	79.1	90.5	62.7	66.3	56.8	64.8	61.2	54.2	42.0	66.0
SASM reppoints	ResNet50	GIoU	89.5	76.0	45.3	70.7	59.9	74.6	78.0	90.3	64.1	67.3	46.2	67.1	70.3	56.3	44.3	66.7
Oriented reppoints	ResNet50	GIoU	89.7	75.7	49.8	70.7	74.1	80.5	88.4	90.5	65.1	68.6	47.1	64.6	70.4	57.8	54.6	69.8
Two-stage
Rotated Faster RCNN	ResNet50	Smooth L1	88.5	74.7	44.1	70.0	63.7	71.4	79.4	90.5	58.7	62.0	54.7	64.5	63.2	58.2	50.1	66.3
Oriented RCNN	ResNet50	Smooth L1	89.1	75.8	50.0	68.3	62.3	84.0	88.8	90.6	68.7	62.3	57.0	63.6	66.4	57.3	39.1	68.2
RoI Transformer	ResNet50	Smooth L1	89.4	77.7	46.8	71.9	68.4	77.9	80.0	90.7	71.3	62.5	59.1	63.6	67.3	60.2	45.4	68.8
ReDet	ReResNet50	Smooth L1	89.6	78.0	47.4	68.8	65.8	82.4	87.4	90.6	67.5	69.7	63.4	65.9	67.3	53.0	48.7	69.7
Ours	HRNet	KLD	89.8	75.4	54.7	78.9	68.8	78.6	89.3	90.7	75.7	62.8	67.0	67.2	75.3	60.7	52.1	72.5

Table 1. Performance comparison of different methods on DOTAv1.0 dataset

View all Tables

RoI Transformer^[3]由于提取了更为精准RRoI特征，所以达到了比Rotated Faster RCNN^[19]更好的性能。如表1所示，ReDet^[7]在DOTAv1.0数据集上的mAP相较于RoI Transformer提高了0.9%，它是一种基于RoI Transformer的检测方法，可以提取旋转不变特征。本文所提方法的mAP达到了72.5%，相较于RoI Transformer提高了3.7%，相较于ReDet 提高了2.8%。

本文用DIOR-R数据集评估HRD-ROI Transformer模型的适应性。根据DIOR-R数据集的特性，将用于DOTAv1.0数据集模型的的输入图像大小调整为800 × 800像素，检测目标类别调整为20，并使用DIOR-R数据集重新训练和测试模型。结果如表2所示，本文方法仍然是所有双阶段算法中性能最好的，mAP达到了64.7%，比RoI Transformer高4%，比ReDet高5.1%。SASM reppoints^[12]和Oriented reppoints^[13]也在DIOR-R数据集上取得了较好的检测效果，但mAP仍分别比我们的模型低2.7%和1.2%。

Method	Backbone	Loss	AP/%																				mAP/%
Method	Backbone	Loss	APL	APO	BF	BC	BR	CH	ESA	ETS	DAM	GF	GTF	HA	OP	SH	STA	STO	TC	TS	VE	WM	mAP/%
One-stage
Rotated Retinanet	ResNet50	Smooth L1	59.1	15.0	70.4	81.1	14.5	72.6	64.9	46.6	14.6	70.9	74.7	24.8	30.2	67.0	69.1	50.1	81.2	41.6	32.5	61.9	52.1
Rotated Retinanet-G	ResNet50	GWD	64.6	21.1	72.9	81.1	13.1	72.7	68.5	45.8	14.7	70.1	75.1	27.2	30.6	68.9	66.1	57.9	81.2	47.4	34.8	61.5	53.8
R3Det	ResNet50	Smooth L1	53.3	27.9	68.9	81.0	22.9	72.6	66.4	49.6	19.2	68.4	76.0	22.1	41.5	68.3	57.9	55.4	81.1	45.5	35.7	54.0	53.4
R3Det-K	ResNet50	KLD	57.8	34.9	69.4	81.2	28.5	72.7	71.8	53.2	16.1	71.8	77.1	36.4	47.6	74.5	62.5	60.8	81.3	50.0	39.8	56.2	57.2
S2ANet	ResNet50	KFIoU	67.2	28.0	76.0	80.8	27.3	72.6	61.2	60.3	17.9	68.6	78.2	26.2	44.6	77.7	65.8	67.4	81.3	48.9	42.2	63.1	57.8
SASM reppoints	ResNet50	GIoU	61.2	52.1	74.5	82.7	32.4	72.5	76.0	58.1	34.9	71.3	77.1	38.6	51.5	79.1	64.8	66.3	80.7	60.5	41.7	64.2	62.0
Oriented reppoints	ResNet50	GIoU	68.7	41.9	75.1	84.0	35.4	75.4	79.5	65.8	32.1	75.0	78.6	43.4	51.8	80.3	66.5	66.4	85.4	54.0	46.2	65.0	63.5
Two-stage
Rotated Faster RCNN	ResNet50	Smooth L1	62.0	18.1	71.3	81.0	22.9	72.5	61.0	58.5	10.0	67.6	78.8	34.3	38.9	80.4	58.8	62.4	81.3	44.7	41.3	64.3	55.5
Oriented RCNN	ResNet50	Smooth L1	61.8	26.7	71.6	81.3	33.8	72.6	74.0	58.4	23.7	66.8	80.0	29.9	52.0	81.0	62.5	62.4	81.4	50.6	42.3	65.0	58.9
RoI Transformer	ResNet50	Smooth L1	63.1	30.7	71.8	81.5	33.9	72.7	75.8	64.6	24.3	67.4	82.5	35.7	51.1	81.2	70.5	70.8	81.5	44.4	43.4	66.0	60.7
ReDet	ReResNet50	Smooth L1	71.0	28.3	71.5	88.7	31.3	72.7	71.6	61.1	20.8	61.8	81.9	36.7	48.8	81.1	63.1	62.5	81.6	49.2	42.8	64.6	59.6
Ours	HRNet	KLD	63.1	41.6	79.0	88.0	42.1	72.6	76.6	65.8	28.2	71.0	82.9	42.2	57.1	81.3	72.5	70.4	89.7	53.3	49.1	66.3	64.7

Table 2. Performance comparison of different methods on DIOR-R dataset

View all Tables

尽管ReDet采用ReResNet提取旋转不变特征，但它的高分辨率特征语义信息很弱，对于小目标的检测效果不佳。而本文方法中使用的HRNet保持了高分辨率表示，保持强语义信息的同时，提高了网络对各种尺度目标的鲁棒性。如表3所示，DIOR-R数据集中的船舶(SH)、车辆(VE)、风车(WM)和DOTAv1.0数据集中的小型车辆(SV)、船舶(SH)是典型的小目标，本文方法的检测结果均优于ReDet。

Method	Backbone	Loss	DIOR-R/%			DOTAv1.0/%
Method	Backbone	Loss	SH	VE	WM	SV	SH
One-stage
Rotated RetinaNet	ResNet50	Smooth L1	67.0	32.5	61.9	66.5	85.8
R3Det	ResNet50	Smooth L1	68.3	35.7	54.0	66.9	87.2
S2ANet	ResNet50	Smooth L1	77.7	42.2	63.1	64.9	79.1
SASM reppoints	ResNet50	GIoU	79.1	41.7	64.2	59.9	78.0
Oriented reppoints	ResNet50	GIoU	80.3	46.2	65.0	74.1	88.4
Two-stage
Rotated Faster RCNN	ResNet50	Smooth L1	80.4	41.3	64.3	63.7	79.4
Oriented RCNN	ResNet50	Smooth L1	81.0	42.3	65.0	62.3	88.8
RoI Transformer	ResNet50	Smooth L1	81.2	43.4	66.0	68.4	80.0
ReDet	ReResNet50	Smooth L1	81.1	42.8	64.6	65.8	87.4
Ours	HRNet	KLD	81.3	49.1	66.3	68.8	89.3

Table 3. Detection effects of small object on DOTAv1.0 and DIOR-R datasets

View all Tables

图6(来自DIOR-R数据集)和图7(来自DOTAv1.0数据集) 主要展示了双阶段检测方法在典型场景旋转目标检测的结果。图6第1列是Rotated Faster RCNN的检测结果，第2列是Oriented RCNN的检测结果，第3列是RoI Transformer的检测结果，第4列是ReDet的检测结果，第5列是本文方法的结果。图6第1行的机场区域检测结果中，前4列的方法各有不同程度的误检，Rotated Faster RCNN将航站楼误检为立交桥，将飞机误检为风车；Oriented RCNN^[6]、RoI Transformer和ReDet均将飞机误检为风车。本文方法没有出现这种误检，是因为HRNet提取了尺度适应性更强的特征，能很好地分辨风车和飞机，而且对于第1行图中航站楼、第2行中的桥梁这两种大长宽比的目标，KLD损失规避了角度周期性带来的问题，提升了检测性能。图7展示了不同检测方法的漏检情况，可以看到，KLD损失对于港口、大型车辆这类大长宽比目标效果良好。

Figure 6.Comparison of detection results (false detection)

Figure 7.Comparison of detection results (missed detection)

此外，RoI Transformer对于大长宽比的目标定位不够精准。如图8所示，大坝是典型的大长宽比的目标，可以清楚地看到，本文方法在检测精度方面明显优于其他4种方法。这证明KLD损失的参数联合优化是有效的，在检测大长宽比目标时表现出良好的性能，这在消融实验中将进一步讨论。

Figure 8.Comparison of detection results (objects of large aspect ratios)

2.5　消融实验

本文利用消融实验分别测试KLD损失函数和HRNet对模型性能的影响，并对比了GWD、KLD和KFIoU 3种用于旋转目标检测的损失函数的性能。

模型(a)是RoI Transformer框架中仅以KLD损失函数替换Smooth L1损失函数，模型(b)是RoI Transformer框架融合HRNet特征提取网络，模型(c)即为本文提出的HRD-ROI Transformer方法。表4和表5展示了消融实验的结果。

Method	KLD	HRNet	mAP/%
Rotated Faster RCNN			66.3
RoI Transformer			68.8
Ours(a)	√		70.3
Ours(b)		√	71.7
Ours(c)	√	√	72.5

Table 4. Comparison of effectiveness of KLD and HRNet on DOTAv1.0 dataset

View all Tables

在DOTAv1.0数据集上，RoI Transformer的mAP达到68.8%，而仅使用KLD损失的模型(a)达到了70.3%，仅使用HRNet的模型(b)达到了71.7%，相比于RoI Transformer分别提升了1.5%和2.9%。这表明这两个部分对于最终的检测结果都有贡献。结合KLD损失和HRNet的模型(c)的mAP进一步达到了72.5%。上述结果充分验证了基于KLD损失和HRNet的有效性。模型(a)、(b)和(c)在DIOR-R数据集上的mAP分别比原始RoI Transformer高0.8%、3.2%和4%，也验证了本文模型的适应性。

Method	KLD	HRNet	mAP/%
Rotated Faster RCNN			55.5
RoI Transformer			60.7
Ours(a)	√		61.5
Ours(b)		√	63.9
Ours(c)	√	√	64.7

Table 5. Comparison of effectiveness of KLD and HRNet on DIOR-R dataset

View all Tables

模型(a)和RoI Transformer的检测结果对比如图9所示，其中第1行是RoI Transformer的检测结果，第2行是模型(a)的检测结果。港口、立交桥和桥梁是DIOR-R数据集中典型的大长宽比目标。造成检测精度不高的主要原因之一就是目标回归的中心定位不准，与RoI Transformer相比，模型(a)对目标的定位更加准确。

Figure 9.Effectiveness of KLD on DIOR-R dataset

GWD、KLD和KFIoU 3种损失函数的性能对比如表6所示。以RoI Transformer为基础框架，采用GWD、KLD和KFIoU 3种损失函数分别训练模型，得到不同模型的mAP。可以看到，不管是在DOTAv1.0还是在DIOR-R数据集上，KLD损失的mAP都明显高于KFIoU损失。虽然在DIOR-R数据集上，KLD损失的mAP仅比GWD损失高0.1%，但是综合所有模型来看，KLD损失仍旧是三者中性能最优的损失函数。

Loss Function	DOTAv1.0/%	DIOR-R/%
GWD	69.2	61.4
KFIOU	68.9	60.3
KLD	70.3	61.5

Table 6. Comparison of mAP for three loss function models

View all Tables

2.6　HRD-ROI Transformer误检样本分析

表2所示的DIOR-R数据集的检测结果中，机场(APO)和高尔夫球场(GF)的检测效果欠佳，其真值(ground truth)和检测结果的对比如图10和图11所示。

Figure 10.Detection results of airport

Figure 11.Detection results of golf course

图10中第1行的红色框表示本文方法检测出的机场区域，第2行红色框表示机场区域的真值，可以看到，第1列两张对比图中，检测的机场的定位不精准；第2列两张对比图中，检测到了真值没有标注的机场区域；第3列两张对比图中，将道路误检为了机场。机场的典型特征一般是跑道，其形状容易和道路混淆，且机场的边界特征不清晰，会导致回归的旋转框不准确。

图11中第1行的玫红色框表示本文方法检测出的高尔夫球场，第2行玫红色框表示高尔夫球场的真值。图11中第1列和第2列的两张对比图的农田均被误检为高尔夫球场，且均有高尔夫球场被漏检；第3列两张对比图中，3个高尔夫球场均被漏检。当图像分辨率较低时，高尔夫球场的纹理特征急剧变弱，与农田等绿色植被相似度过高，检测过程中很容易混淆。

3　结论

本文提出了一种基于RoI Transformer的遥感图像多尺度旋转目标检测方法HRD-ROI Transformer，该方法采用HRNet作为骨干网络，提高了模型对目标尺度变化的适应性，在小目标检测效果上优于现有典型旋转目标检测方法；此外，本文所提方法引入KLD损失，可对旋转边界框参数进行联合优化，提高了模型对旋转目标，特别是大长宽比旋转目标的检测精度。在两个公共数据集的的比较试验证明了HRD-ROI Transformer可以适应目标尺度变化，并解决了角度周期性问题，在旋转目标的检测精度方面优于当前主流的方法。

本文方法对DIOR-R数据集中的机场(APO)和高尔夫球场(GF)检测效果欠佳，后续将根据这类目标的特性做数据增强，并将SAM(segmenting anything model)嵌入检测模型中^[27]，以SAM分割的高细粒度结果指导目标检测中低细粒度的边界框的生成，提升模型对这类目标的检测能力。针对小目标的检测问题，本文方法的检测精度有所提升，后续还可以通过引入特征层注意力机制^[28]，增强模型对小目标的关注，或者采用优化的低耦合网络(optimized low coupling network, OLCN)^[29]避免小目标的丢失。此外，使用的HRNet包含多个特征融合，可能会造成较大的训练存储成本，因此，网络轻量化也将是未来重要的研究方向。

References

[1] L LIU, W OUYANG, X G WANG et al. Deep learning for generic object detection: a survey. International Journal of Computer Vision, 128, 261-318.(2020).

[2] Changhong FU, Kunhui CHEN, Kunhan LU et al. Aviation fastener rotation detection for intelligent optical perception with edge computing. Journal of Applied Optics, 43, 472-480(2022).

[3] J DING, N XUE, Y LONG et al. Learning RoI transformer for oriented object detection in aerial images, 2849-2858(2019).

[4] W QIAN, X YANG, S L PENG et al. Learning modulated loss for rotated object detection, 2458-2466(2021).

[5] J Q MA, W Y SHAO, H YE et al. Arbitrary-oriented scene text detection via rotation proposals. IEEE Transactions on Multimedia, 20, 3111-3122.(2018).

[6] X X XIE, G CHENG, J B WANG et al. Oriented r-cnn for object detection, 3520-3529(2021).

[7] J M HAN, J DING, N XUE et al. Redet: a rotation-equivariant detector for aerial object detection, 2786-2795(2021).

[8] K M HE, X Y ZHANG, S Q REN et al. Deep residual learning for image recognition, 770-778(2016).

[9] X YANG, J C YAN, Q MING et al. Rethinking rotated object detection with Gaussian Wasserstein distance loss, 11830-11841(2021).

[10] Y YU, F P DA. Phase-shifting coder: predicting accurate orientation in oriented object detection. https://doi.org/10.48550/arXiv.2211.06368

[11] X YANG, J C YAN, Z M FENG et al. R3det: refined single-stage detector with feature refinement for rotating object, 3163-3171(2021).

[12] L HOU, K LU, J XUE et al. Shape-adaptive selection and measurement for oriented object detection, 923-932(2022).

[13] W LI, Y CHEN, K HU et al. Oriented reppoints for aerial object detection, 1829-1838(2022).

[14] Liequan WU, Zhifeng ZHOU, Zhiling ZHU et al. Surface defect detection of patch diode based on improved YOLO-V4. Journal of Applied Optics, 44, 621-627(2023).

[15] X YANG, X J YANG, J R YANG et al. Learning high-precision bounding box for rotated object detection via kullback leibler divergence, 18381-18394(2021).

[16] X YANG, Y ZHOU, G F ZHANG et al. The kfiou loss for rotated object detection. https://doi.org/10.48550/arXiv.2201.12558

[17] K WANG, Z LI, A SU et al. Oriented object detection in optical remote sensing images: a survey. https://doi.org/10.48550/arXiv.2302.10473

[18] J D WANG, K SUN, T S CHENG et al. Deep high-resolution representation learning for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43, 3349-3364.(2021).

[19] Jiale CAO, Yali LI, Hanqing SUN et al. A survey on deep learning based visual object detection. Journal of Image and Graphics, 27, 1697-1722(2022).

[20] X YANG, J C YAN, W L LIAO et al. SCRDet++: detecting small, cluttered and rotated objects via instance-level feature denoising and rotation loss smoothing. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45, 2384-2399.(2023).

[21] J HAN, J DING, J LI et al. Align deep features for oriented object detection. IEEE Transactions on Geoscience and Remote Sensing, 60, 1-11(2022).

[22] G S XIA, X BAI, J DING et al. Dota: a large-scale dataset for object detection in aerial images, 3974-3983(2018).

[23] G CHENG, J B WANG, K LI et al. Anchor-free oriented proposal generator for object detection. IEEE Transactions on Geoscience and Remote Sensing, 60, 1-11(2022).

[24] K LI, G WAN, G CHENG et al. Object detection in optical remote sensing images: a survey and a new benchmark. ISPRS Journal of Photogrammetry and Remote Sensing, 159, 296-307(2020).

[25] Y ZHOU, X YANG, G F ZHANG et al. Mmrotate: a rotated object detection benchmark using pytorch, 7331-7334(2022).

[28] J LI, Y X GONG, Z MA et al. Enhancing feature fusion using attention for small object detection, 1859-1863(2022).

[29] Y YUAN, Y L ZhANG. OLCN: an optimized low coupling network for small objects detection. IEEE Geoscience and Remote Sensing Letters, 19, 1-5(2021).

微信扫一扫：分享

微信扫一扫：分享