Design and development of a security patrol system based on the DiMP algorithm

Xiao LIANG; Zongyuan LIU; Yiwei XIU; Boran ZHOU; Guanglei MENG

doi:10.3969/j.issn.2095-1248.2025.02.008

Journal of Shenyang Aerospace University >

2025 , Vol. 42 >Issue 2: 63 - 71

DOI: https://doi.org/10.3969/j.issn.2095-1248.2025.02.008

Information Science and Engineering

Design and development of a security patrol system based on the DiMP algorithm

Xiao LIANG ,
Zongyuan LIU ,
Yiwei XIU ,
Boran ZHOU ,
Guanglei MENG

Expand

College of Automation，Shenyang Aerospace University，Shenyang 110136，China

Received date: 2024-03-26

Revised date: 2024-05-22

Accepted date: 2024-05-30

Online published: 2025-05-27

Fold

Abstract

To address the issues of low efficiency， blind spots in vision， and high costs of traditional manual security patrols， a security patrol system based on the DiMP （discriminative model prediction） algorithm was designed. The system adopted a modular design and implements autonomous flight control and tracking functions for UAV （unmanned aerial vehicle） on an embedded onboard computer. To enhance the tracking precision and accuracy of small targets during the patrol process， a multi-scale feature fusion strategy was employed to improve the DiMP target tracking algorithm. This strategy involved fusing image pyramid features of different scales with the backbone network features， providing the backbone network with information-rich fused features. The optimized DiMP algorithm achieved a 2.6% increase in target tracking success rate and a 3.4% increase in precision on the UAV123 dataset， while also reaching a tracking speed of 38 fps on the VOT2018 dataset. Finally， the effectiveness of the UAV security patrol was verified in an outdoor environment. The results show that the improved tracking algorithm is capable of operating in real time on the UAV and stably tracking the target for a long time.

Key words： security patrol system; DiMP; computer vision; UAV; embedded system

Cite this article

Xiao LIANG , Zongyuan LIU , Yiwei XIU , Boran ZHOU , Guanglei MENG . Design and development of a security patrol system based on the DiMP algorithm[J]. Journal of Shenyang Aerospace University, 2025 , 42(2) : 63 -71 . DOI: 10.3969/j.issn.2095-1248.2025.02.008

随着科技进步与安防巡检需求的增加，无人机在安防巡检领域的应用受到了广泛关注，并被广泛地应用于工厂、校园、企业等场景中^［1］。无人机通过搭载多功能传感器，能够执行视频监控^［2］、人员检测^［3］、目标跟踪^［4］等任务。特别是在室外环境中，相比于传统地面巡检方式，无人机能够更加高效地完成安防巡检工作。例如，在森林火灾的早期检测中，无人机能够在高空进行大范围的监测^［5］；在校园安全保障工作中，无人机巡检系统能够迅速识别人群聚集情况^［6］。

然而，随着巡检任务复杂性的增加，对无人机系统的自主性要求也随之提高。目前，许多系统仍依赖遥控操作，缺少成熟的自主巡检技术。虽然Liang等^［7］通过在地面站对数据进行处理，减轻了机载计算机在目标跟踪中的计算压力，但这种方法有传输延迟，影响了系统的实时性。随着机载嵌入式系统计算能力的提升，集成计算机视觉功能的无人机开始受到研究者的重视。例如，通过嵌入式系统实现的相关滤波（kernelized correlation filters，KCF）算法^［8］、高效卷积运算（efficient convolution operators，ECO）^［9］等。Çintaş等^［10］提出了一种基于YOLO（you only look once）^［11］目标检测算法和KCF目标跟踪算法的嵌入式系统方案，实现了无人机在飞行中的自动目标检测和跟踪，但这些方法在精度和准确性上仍有待提高。随着专为深度学习而设计的模块化机载计算机的出现，无人机自主安防巡检成为可能。

在安防巡检无人机系统中，准确稳定的目标跟踪是完成任务的关键。由于传统的相关滤波器跟踪方法缺乏鲁棒的特征表示，导致跟踪结果不够准确。近年来，基于孪生网络（siamese network，SN）^［12］的跟踪算法因其在视觉跟踪的性能和效率之间取得了令人满意的平衡而受到广泛的关注。但在遇到干扰物或目标外观变化时，其跟踪效果会下降。为了克服这一缺点，Bhat等^［13］提出DiMP（discriminative model prediction）算法，通过引入判别式跟踪架构，充分地利用了目标和背景的外观信息，在有效处理外观变化的同时，极大提高了算法的跟踪性能。同时，DiMP采用最速梯度下降法对模型进行优化，克服了计算资源限制，在无人机平台上实现了深度学习跟踪算法的应用。鉴于DiMP目标跟踪方法在速度和精度上的优势，其改进方法不断涌现。Danelljan等^［14］提出了PrDiMP算法，从概率回归公式的角度提高了目标分类器的判别能力，在处理复杂场景和目标遮挡时取得了较好的结果。但基于DiMP跟踪方法目标分类器仅使用来自预训练模型骨干网络中的单层特征，导致其区分目标的能力有限，难以用于图像细节的提取。针对此问题，Wang等^［15］将Transformer架构应用到了跟踪领域，提出TrDiMP算法，该算法通过结合不同帧之间的信息来获取更丰富的语义信息，从而提高了跟踪精度。但TrDiMP算法训练和推理时间的增加使其难以在嵌入式机载电脑上实时运行，这在无人机自主跟踪任务中是一个显著的缺点。

本文基于DiMP算法和装有嵌入式机载计算机的无人机平台设计了一套视觉无人机安防巡检系统，实现了无人机的自主控制和目标跟踪功能，提高了巡检效率和准确性。同时，针对实际巡检过程中无人机视角下目标偏小导致的跟踪失败的问题，在DiMP跟踪算法的基础上进一步构建了图像金字塔结构。通过浅层网络提取不同分辨率下的语义信息，增强了网络对小目标特征的提取能力，在保证跟踪速度的基础上，提高了算法在实际应用中跟踪小目标的准确性。最后，经过实验验证，改进后的跟踪算法在室外环境中展现了卓越的跟踪性能，为安防巡检系统提供了切实可行的方案。

1 安防巡检无人机系统方案

本文提出了一种安防巡检无人机系统，该系统由天空端和地面端组成。在天空端，无人机平台通过搭载机载计算机，能够在执行巡检任务的同时进行目标跟踪。地面端为地面指挥中心，负责监控无人机状态并发布无人机任务。天空端和地面端通过无线通信设备进行数据传输。安防巡检无人机系统框架如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 安防巡检无人机系统框架

2 针对室外小目标的DiMP跟踪方法改进

本节对基于DiMP的目标跟踪算法进行改进，特别针对无人机视角下小目标跟踪问题，增强了算法对小尺寸目标的跟踪能力，以适应实际巡检过程中的需求。

2.1 DiMP算法概述

为了解决基于孪生网络的跟踪算法仅依赖目标外观而忽视背景信息的问题，DiMP算法采用了端到端的跟踪架构。这种架构充分利用了前景和背景信息，并配备了有效的在线更新机制。DiMP跟踪算法的体系结构如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 DiMP跟踪算法的体系结构

DiMP算法希望模型具有判别力，对初始的均方误差进行了修正，原始的损失如式（1）所示。

L (f) = 1 | S t r a i n | ∑ (x, c) ∈ S t r a i n | | r (x * f, c) | | 2 + | | λ f | | 2

（1）

式中：

f = D S t r a i n

为预测滤波器；

S t r a i n = x j, c j j = 1 n

为

x j ∈ χ

的训练集；

x j

为从主干网络获得的特征映射；

*

为卷积算子；

λ

为正则化因子。

使用函数

r s, c

计算每个位置的目标置信度分数

s = x * f

与目标中心坐标

c

之间的残差。最终剩余损失为

r s, c = ν c m c s + 1 - m c m a x 0, s - y c

（2）

式中：

ν c

为空间权重函数；掩码

m c

为目标区域。在目标区域

m c ≈ 1

，背景区域

m c ≈ 0

。

许多跟踪算法使用的模型优化算法通常是梯度下降算法，一般方法表述为

f (i + 1) = f (i) - ∂ ∇ L (f (i))

（3）

式中：

∂

为学习率；

∇ L

为梯度。然而，

∂

是固定的，直接使用这种方法可能会导致缓慢收敛。因此，DiMP基于最速下降法计算一个可学习的参数

∂

。它用二次函数逼近损失，即DiMP考虑以下分类丢失。

L (f) ≈ L ˜ (f) = 12 (f - f (i)) T Q (i) (f - f (i)) + (f - f (i)) T ∇ L (f (i)) + L (f (i))

（4）

其中，

Q (i)

是一个正定矩阵。式（5）为

d d ∂ L ˜ (f (i) - ∂ ∇ L (f (i))) = 0

（5）

通过式（5）可以得到

∂

，

∂ = ∇ L (f (i)) T ∇ L (f (i)) ∇ L (f (i)) T Q (i) ∇ L (f (i))

（6）

然后，将计算出的步长

∂

放入式（3）中进行模型优化，从而使模型具有判别力。

2.2 结合图像金字塔特征融合的DiMP算法

本文对DiMP跟踪算法的骨干网络^［16］进行了重新设计，并提出了一种结合图像金字塔网络（image pyramid network，IPN）^［17］特征融合架构的小目标跟踪算法，如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 图像金字塔网络特征融合架构

图像金字塔特征融合架构由3个主要部分组成：ResNet-50骨干网络、图像金字塔网络和特征融合模块。为了补充ResNet-50骨干网络浅层特征图的表达能力，将图像金字塔网络整合进跟踪流程中，为骨干网络的每一阶段提供更丰富的空间信息。通过特征融合模块，不同尺度的特征信息得以融合，从而增强了特征的表达能力。

通过从图像金字塔网络中接收一组不同分辨率的图像，并从中提取图像金字塔对应的特征。输入为一个图像金字塔集

I s e t = {I 0, I 1, I 2, I 3}

，集合

I s e t

中的图像分辨率每阶段降低

12

，具体可表示为

I s e t = {I H × W, I H 21 × W 21, I H 22 × W 22, I H 23 × W 23}

。其中，第一幅图像为

I 0

，分辨率为

H × W

。

图像金字塔网络经过一个自主设计的浅层网络转换生成对应的图像金字塔特征，如图4所示。

显示原图|下载原图ZIP|生成PPT

图4 图像金字塔特征转换方法

输入的图像首先经过一个步长为2的7×7的卷积层和一个2×2的最大池化层进行处理，接着通过一个残差块产生最终的特征输出。该残差块包含3个卷积层，分别使用1×1、3×3和1×1的卷积核，并在每个卷积核之后应用激活函数。两个1×1卷积核起到先降维后升维的作用，这样不仅减少了计算参数，还实现了跨通道的信息融合。同时，使用浅层网络提取特征可以保留更多的细节信息，而且保证了目标跟踪的速度。

经过变换，

I s e t = {I 0, I 1, I 2, I 3}

输出的各分量可以表示为：

P i = f (I i), i = 0,1, 2,3

。其中，

f ⋅

表示转换过程，

P i

表示第i层的图像金字塔的特征。最终形成图像金字塔网络特征集合

P s e t = {P 0, P 1, P 2, P 3}

。

特征融合模块在图3中用符号

⊗

表示。融合模块有两个输入，分别是ResNet-50骨干特征

R i

和相应的图像金字塔特征

P i

。图5为融合模块的架构。具体而言，融合模块使用ResNet-50骨干网络构建层次丰富的特征

R i

与经过转换生成的一系列图像金字塔特征

P i

进行融合。特征

R i

采用自底向上的路线，而特征

P i

则采用自顶向下的路线。两者在中间通过1×1的卷积核进行横向连接，确保

R i

输出通道的大小与

P i

一致。这部分输出特征表示为

ψ (R i, C i)

，其中

R i

和

C i

分别表示来自ResNet-50的特征和1×1卷积操作。由于只有尺寸相同的特征图才能进行融合，因此在自顶向下的路径中采用上采样方法

U (x)

以确保融合特征图的尺寸一致，其中x是上采样的输入，即图像金字塔特征

P i

。通过上述步骤，得到最终的融合结果

F i

。因此，本方法的特征融合输出可表示为

显示原图|下载原图ZIP|生成PPT

图5 融合模块的架构

F i = U (P i + 1) + ψ (R i, C i) + P i, i = 0,1, 2 ψ (R i, C i) + P i, i = 3

（7）

3 实验与分析

本节首先进行了目标跟踪算法的仿真，将跟踪算法的结果进行对比和可视化分析，并对改进前后的骨干网络进行参数评估。然后，将视觉算法部署在无人机平台上进行现场测试，评估跟踪算法在实际应用场景中的效果。

3.1 目标跟踪算法仿真与分析

本文改进的跟踪算法是在Python环境中，通过PyTorch深度学习框架来实现的。实验使用的硬件包括一块NVIDIA RTX3090（24GB）显卡，主要用于算法的训练和测试。此外，在NVIDIA Jetson Xavier NX机载计算机上对算法进行了现场测试，用以评估其在实际应用场景中的表现。在这两种配置下，算法的跟踪速度分别达到了38 fps和20 fps。

在训练阶段，算法采用GOT10k和LaSOT数据集的训练部分进行训练，总大小超过100 GB。训练过程中，学习率设定为0.001，共进行了50个周期，整个训练过程约48 h。

在测试阶段，使用评估工具对UAV123数据集、VOT2018数据集进行性能评估，同时对改进前后的骨干网络进行参数评估。

本文通过成功图和精度图对不同算法进行比较。成功图表示跟踪算法在测试视频序列中成功跟踪目标的比例，精度图则表示跟踪算法预测的目标位置与真实目标位置之间的平均偏差。

如表1所示，不同跟踪算法在UAV123数据集上的成功率和精确度对比表明，本文提出算法的成功图和精度图均优于其他算法。DiMP50的成功图得分为64.8%，而本文提出的方法得分为67.4%，高出DiMP50算法 2.6%。在精度方面，DiMP50得分为85.8%，本文的方法达到了89.2%，领先DiMP50算法3.4%。这些结果充分证明了本文所研究算法的卓越跟踪性能。

表1 UAV123数据集定量评价 (%)

算法	评价得分
算法	成功图	精度图
ATOM	64.2	85.7
DiMP18	64.3	85.1
DiMP50	64.8	85.8
PrDiMP18	65.3	84.9
PrDiMP50	66.6	85.8
本文	67.4	89.2

为了更直观地展示本文改进的跟踪算法对小目标的跟踪效果，图6将本文的方法与DiMP50和基于重叠最大化的精准跟踪（accurate tracking by overlap maximization，ATOM）^［18］的跟踪结果进行对比，并针对UAV123数据集中的3个具有挑战性的序列bike3、bird1、group2进行了分析。

显示原图|下载原图ZIP|生成PPT

图6 UAV123在3个序列对比结果

从bike3的结果可以观察到，当目标物体变得非常小（帧#000097）或部分被遮挡（帧#000218）的情况下，本文的跟踪算法能够对目标物体进行稳健的跟踪。相比之下，DiMP算法在整个跟踪过程中由于目标变得非常小而性能下降，而本文的方法能够持续跟踪目标，这突显了多层特征融合的优势。在bird1中，当目标存在剧烈的外观变化（帧#000830）时，DiMP50和ATOM跟踪算法都无法继续跟踪，而本文的跟踪算法则未出现此类问题。在group2序列中，即使在目标快速移动（帧#000050）和部分遮挡（帧#000148）的情况下，本文的跟踪算法依旧能够对目标物体进行稳健的预测。

为了直观地对比不同跟踪算法在VOT2018上的表现，将算法的性能和速度进行可视化，如图7所示。

显示原图|下载原图ZIP|生成PPT

图7 不同跟踪算法在VOT2018的结果

从图7中可以看出，本文提出的多尺度特征融合方法的跟踪速度为38 fps，EAO得分为0.452，相较于改进前的DiMP算法，跟踪速度仅下降7 fps，而EAO得分却提高了0.012。此外，在跟踪速度上，本文的方法比同样使用获取更多语义信息策略的TrDiMP跟踪算法快16 fps。

为了进一步验证提出图像金字塔的可行性，对骨干网络改进前后的浮点运算次数（FLOPs）、参数量与推理时间进行了比较。具体的对比结果见表2。

表2 骨干网络改进前后参数对比

骨干网络	FLOPs	参数量	推理时间/s
Resnet50	4.13×10⁹	25.58×10⁶	2.22×10^-2
图像金字塔	4.89×10⁹	27.26×10⁶	2.27×10^-2

相比于Resnet50网络，图像金字塔融合网络的FLOPs和参数量分别增加了0.76×10⁹和1.68×10⁶，这在一定程度上增加了模型的计算复杂度。但是，推理时间仅增加了0.05×10^-2s，对算法的实时性几乎没有影响。更重要的是，改进后的图像金字塔融合网络在小目标跟踪的准确性上有了显著提升，加强了巡检系统在实际应用中的效果。

综上所述，本文通过对比多个算法在数据集上的效果，并对改进前后的骨干网络进行参数评估后，验证了本方法相较于其他方法的表现更具竞争力。本文所提出的图像金字塔特征融合策略，通过在不同尺度上捕捉目标特征，在保证跟踪速度的同时，有效地提高了算法对小目标、快速移动目标以及部分遮挡目标的跟踪能力。

3.2 室外环境中的安防巡检综合实验

本节设计了一个室外综合实验，以验证无人机安防巡检系统的跟踪效果。在实验过程中，将改进的跟踪算法部署在机载计算机NVIDIA jetson Xavier NX上，并以随机任务的方式验证算法的跟踪能力，即跟踪目标随机、目标移动方向随机。此外，为验证算法的鲁棒性，特意选择了在体型和衣着颜色上具有相似性的目标进行跟踪，以模拟实际应用中可能遇到的复杂情况。图8为室外综合实验跟踪效果。

显示原图|下载原图ZIP|生成PPT

图8 室外综合实验跟踪效果

实验结果表明，本文改进的小目标跟踪算法在20 fps的跟踪速度下，能够持续、准确地跟踪目标，且在整个实验过程中没有丢失任何目标。算法成功应对了无人机视角下小目标跟踪的各种挑战，包括目标干扰、遮挡、快速移动和光照变化等。此外，算法在NVIDIA Jetson Xavier NX机载计算机上的现场测试也显示出了良好的实时性和稳定性，实现了安防巡检无人机系统的自主化。

4 结论

本文设计并实现了一套基于DiMP目标跟踪算法的安防巡检系统。该系统针对室外安防巡检中无人机视角下小目标跟踪的挑战，提出了一种多尺度特征融合策略。这一策略显著增强了系统对小目标的跟踪能力，通过在UAV123数据集上的测试，改进算法的成功率和精度分别提高了2.6%和3.4%，同时在VOT2018数据集上实现了38 fps的跟踪速度。此外，该跟踪算法已成功部署在安防巡检无人机上，显著提高了巡检效率，并为安防巡检系统的实际应用提供了一个有效的解决方案。

References

Publishing order | Descend order by publishing year | Descend order by cited within

1	蒋冬婷，范长军，雍其润，等.面向重点区域安防的无人机探测与反制技术研究［J］.应用科学学报，2022，40（1）：167-178.

2	杨芳，王萌.低空监控系统的红外小目标检测方法［J］.光学技术，2024，50（1）：120-128.

3	江波，屈若锟，李彦冬，等.基于深度学习的无人机航拍目标检测研究综述［J］.航空学报，2021，42（4）：131-145.

4	王晨昕，符文星，张通，等.基于红外传感器的多无人机对高速飞行器协同定位跟踪方法综述［J］.无人系统技术，2024，7（1）：20-35.

5	陈志平.无人机监测在森林火灾中的应用［J］.森林防火，2023，41（4）：135-138.

6	Fan J W， Yang X G， Lu R T，et al.Design and implementation of intelligent inspection and alarm flight system for epidemic prevention［J］.Drones，2021，5（3）：68.

7	Liang X， Zhao S R， Chen G D，et al.Design and development of ground station for UAV/UGV heterogeneous collaborative system［J］.Ain Shams Engineering Journal，2021，12（4）：3879-3889.

8	徐卓，康隽睿，袁博，等.基于嵌入式GPU的相关滤波跟踪算法改进及实现［J］.弹箭与制导学报，2022，42（4）：97-103.

9	Danelljan M， Bhat G， Khan F S，et al.ECO：efficient convolution operators for tracking［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Honolulu：IEEE，2017：6931- 6939.

10	Çintaş E， Özyer B， Şimşek E.Vision-based moving UAV tracking by another UAV on low-cost hardware and a new ground control station［J］.IEEE Access，2020，8：194601-194611.

11	Inui A， Mifune Y， Nishimoto H，et al.Detection of elbow OCD in the ultrasound image by artificial intelligence using YOLOv8［J］.Applied Sciences，2023，13（13）：7623.

12	Fu K R， Fan D P， Ji G P，et al.Siamese network for RGB-D salient object detection and beyond［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2022，44（9）：5541-5559.

13	Bhat G， Danelljan M， Van Gool L，et al.Learning discriminative model prediction for tracking［C］//2019 IEEE/CVF International Conference on Computer Vision （ICCV）.Seoul：IEEE，2019：6181-6190.

14	Danelljan M， Van Gool L， Timofte R.Probabilistic regression for visual tracking［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Seattle：IEEE，2020：7181-7190.

15	Wang N， Zhou W G， Wang J，et al.Transformer meets tracker： exploiting temporal context for robust visual tracking［C］//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Nashville：IEEE，2021：1571-1580.

16	Pratama Y， Ginting L M， Laurencia E H，et al.Face recognition for presence system by using residual networks-50 architecture［J］.International Journal of Electrical and Computer Engineering，2021，11（6）：5488.

17	Liu Z M， Gao G Y， Sun L，et al.IPG-Net：image pyramid guidance network for small object detection［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）.Seattle：IEEE，2020：4422-4430.

18	Danelljan M， Bhat G， Khan F S，et al.ATOM：accurate tracking by overlap maximization［C］//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.Long Beach：IEEE，2019：4655-4664.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 安防巡检无人机系统方案

图1 安防巡检无人机系统框架

2 针对室外小目标的DiMP跟踪方法改进

2.1 DiMP算法概述

图2 DiMP跟踪算法的体系结构

2.2 结合图像金字塔特征融合的DiMP算法

图3 图像金字塔网络特征融合架构

图4 图像金字塔特征转换方法

图5 融合模块的架构

3 实验与分析

3.1 目标跟踪算法仿真与分析

表1 UAV123数据集定量评价 (%)

图6 UAV123在3个序列对比结果

图7 不同跟踪算法在VOT2018的结果

表2 骨干网络改进前后参数对比

3.2 室外环境中的安防巡检综合实验

图8 室外综合实验跟踪效果

4 结论

References