信息科学与工程

基于GCNet网络的玻璃瓶缺陷检测算法

  • 傅莉 , a ,
  • 房志磊 a ,
  • 席剑辉 a ,
  • 任艳 b
展开
  • a. 沈阳航空航天大学,自动化学院,沈阳 110136
  • b. 沈阳航空航天大学,人工智能学院,沈阳 110136

傅莉(1968—),女,辽宁沈阳人,教授,博士,主要研究方向为智能决策与自主控制、图像处理,E-mail:

收稿日期: 2024-12-18

  修回日期: 2024-12-30

  录用日期: 2025-01-01

  网络出版日期: 2026-03-12

基金资助

国家自然科学基金(61602321)

Defect detection algorithm for glass bottles based on GCNet network

  • Li FU , a ,
  • Zhilei FANG a ,
  • Jianhui XI a ,
  • Yan REN b
Expand
  • a. College of Automation, Shenyang Aerospace University,Shenyang 110136,China
  • b. College of Artificial Intelligence, Shenyang Aerospace University,Shenyang 110136,China

Received date: 2024-12-18

  Revised date: 2024-12-30

  Accepted date: 2025-01-01

  Online published: 2026-03-12

摘要

针对当前玻璃瓶缺陷检测深度学习模型计算量大、参数量多、难以部署的问题,探索一种高效的轻量化解决方案。针对此问题,结合YOLOv8的网络结构设计特征提取网络GCNet。首先,采用GhostConv代替标准卷积;其次,为了降低YOLOv8瓶颈层的参数量和计算量,设计瓶颈层卷积模块,并重新搭建瓶颈层;最后,结合C2f模块的结构设计构建新的CM模块。新的特征提取网络较原YOLOv8网络有着更低的参数量。在特征融合部分采用重新构建的重复加权双向特征融合金字塔结构,解决随着网络层数的加深导致特征信息丢失的问题。同时针对边界框的回归问题上,结合WIoU与Inner-ShapeIoU,提高模型的回归收敛速度。结果表明,相较于YOLOv8算法,由上述方法组成的YOLOv8-DB参数量降低了45.8%,计算量下降了11.9%,精度提升了0.4%。改进后的模型能够有效地降低占用的计算资源,更好地适用于特定工业检测环境。

本文引用格式

傅莉 , 房志磊 , 席剑辉 , 任艳 . 基于GCNet网络的玻璃瓶缺陷检测算法[J]. 沈阳航空航天大学学报, 2026 , 43(1) : 48 -55 . DOI: 10.3969/j.issn.2095-1248.2026.01.007

Abstract

Aiming at the problems of high computational cost, large parameter volume, and difficult deployment in current deep learning models for glass bottle defect detection, an efficient lightweight solution was explored.To solve this problem, the feature extraction network GCNet was designed by combining the network structure of YOLOv8. First, GhostConv was used to replace standard convolution. In order to reduce the number of parameters and calculation amount of YOLOv8 bottleneck layer, the convolution module of bottleneck layer was designed, and the bottleneck layer was rebuilt. A new CM module was built based on the structure design of C2f module. The new feature extraction network had a lower parameter count than the original YOLOv8 network. In the feature fusion part, a reconstructed double-weighted bidirectional feature fusion pyramid structure was used to solve the problem of feature information loss with the deepening of network layers. At the same time, for the boundary box regression problem, the combination of WIoU and Inner-ShapeIoU improved the regression convergence speed of the model. The results show that compared with the YOLOv8 algorithm, the YOLOv8-DB composed of the above, the number of parameters is reduced by 45.8%, the calculation amount is reduced by 11.9%, and the accuracy is increased by 0.4%. The improved model can effectively reduce the consumption of computing resources, and is better suitable for specific industrial detection environments.

深度学习在近十年得到了快速发展,其相关研究在计算机视觉领域取得了显著的成果,并逐步应用于工业生产和日常生活中。利用深度学习算法对工业产品进行缺陷检测逐渐成为一种主流方式。在针对缺陷检测的研究中,Eshkevari等1设计了一种自动测量瓶子不同尺寸特征的方法,提出启发式的分割方法并结合机器学习进行尺寸缺陷检测。Claypo等2采用长卷积经网络进行分类,结合迁移学习算法深入研究了不同算法检测能力的差别。Bereciartua等3利用深度学习技术和经典图像处理技术对参数摄像机采集的图像进行处理。Zhou等4对敲击玻璃瓶产生的信号进行了特征分析,提出一种改进的特征选择算法。Zhou等5通过将最小二乘原检测与熵率超像素结合进行定位,获得感兴趣区域,将感兴趣区域分成中央区域和环形区域。针对这两个区域提出两种缺陷检测的方法,与传统方法相比,该方法具有较好的性能。柴子凡等6提出一种基于Hough变换与K-means聚类相结合的方法进行玻璃瓶的分模线质量检测,该方法在其他玻璃制品中也应用良好。谢泽祺等7利用卷积神经网络进行玻璃瓶口的缺陷检测,缺陷分类的准确率达到95.5%。以上方法虽然能够有效检测到缺陷,但缺乏实际场景中的应用,并且不能做到实时检测。因此本文将使用改进的YOLOV8算法进行缺陷识别。
本文从轻量化的角度出发,集中关注于YOLOv8模型中的主干网络、特征融合层、IoU 3个角度的改进和优化,提出一种轻量级的玻璃瓶缺陷检测算法。

1 轻量化特征提取网络构建

1.1 轻量化卷积模块

在YOLOv8网络中,为了使主干网络轻量化,采用GhosConv代替原网络中的标准卷积,目的是减少网络中的参数量和计算量。在传统的卷积操作中,每一层卷积生成的特征图数量等于卷积核的数量,每个卷积核都需要与输入特征图进行逐点卷积操作,因此在面对玻璃瓶的缺陷特征时,需要很多卷积核来提取丰富的特征,这就会导致在深度网络中存在大量的卷积核,且每个卷积核都需要学习多个权重参数。卷积核越多,参数量越大,模型存储和计算成本就越大。为了克服这些问题,相继提出许多轻量级卷积方法,例如深度可分离卷积8、ShuffleNet9、MobileNet10等。虽然在一定程度上降低了计算复杂度,但是往往会牺牲一部分特征提取能力或需要额外的结构设计。与标准卷积相比,GhostConv通过两阶段生成特征图的方式,将计算主要集中在第一步,生成原始特征图,第二步使用简单的线性变换 Φ生成额外的特征图,最后输出的特征图是原始特征图与额外特征图的结合,极大减少了模型的参数量和计算量。GhostConv示意图如图1所示。
图1 GhostConv示意图

1.2 瓶颈层构建

为了保持网络轻量化,同时提升特征提取效率,设计一种轻量化的卷积模块尤为重要。为此,提出一种新的多尺度卷积模块(multi-scale Conv,MSConv),其示意图如图2所示。该模块在设计上融合了多尺度卷积核和特征冗余的思想,旨在以更少的参数量提取丰富的特征信息,从而减少特征损失并提升网络的整体性能。在特征提取的过程中,生成和保留足够的冗余特征图是极其关键的,因为这些冗余的特征图可以显著提高网络对不同尺度目标的表达能力和泛化性能。
在深度神经网络中,瓶颈块是一种常用的模块设计,其目的是减少计算复杂度和参数量,同时缓解梯度消失的问题,以帮助训练更深的网络。因此,构建了基于MSConv的瓶颈块Bottleneck-MSConv,其示意图如图3所示。将该模块融合到YOLOv8的C2f模块中,CM模块示意图如图4所示。
图3 Bottleneck-MSConv示意图
图4 CM模块示意图

2 改进BiFPN特征融合

双向特征金字塔网络(bidrectional feature pyramid network,BiFPN)是一种高效的多尺度特征融合网络,在FPN的基础上提出了自上而下和自下而上的双向融合网络,极大地降低了浅层与深层之间的语义特征丢失问题。BiFPN结构如图5所示,其加权特征融合方法如式(1)所示。
O = i w i I i ω + j w i
式中: O为经过BiFPN输出的特征; I i为输入特征; w i为学习权重,取值范围为0~1; ω为极小的常数。
本文去掉了BiFPN的P2层的采样节点和P6层的深层网络结构,将P2层的输出与f3的节点连接,降低参数量和计算量,增强8倍下采样的特征信息。在主干网络的P2—P5层中生成特征图,其中P5层的特征图直接输出。为了增强浅层网络语义信息,经过P5层下采样后依次进行上采样与P4、P3层的网络进行加权融合,生成C3、C4特征图,然后再进行加权融合输出。图6为重构的BiFPN结构。
图6 重构的BiFPN结构

3 优化边界框损失

YOLOv8s默认的边界框损失函数为CIoU。CIoU边界框损失函数同时考虑重叠面积、中心点之间的距离及长宽比3个因素,相对于传统的IoU损失函数,在收敛速度及识别精度上有显著提升。但是,CIoU长宽比惩罚项反映的是预测框与真实框的宽高比而非宽和高各自的差异,当真实框与预测框的宽高比呈线性关系时,CIoU的惩罚项便不会产生作用。边界框的回归损失函数对于目标识别至关重要,针对玻璃瓶的数据集,由于硬件性能问题,采集的图片质量较低,强化边界框对低质量实例的回归会导致模型的准确性下降。因此,本文采用动态非单调的聚焦机制,结合Inner-IoU与Shape-IoU,设计了WIS-IoU(wise-inner-shape IoU),其示意图如图7所示。其中,Wise-IoU对于样本数量不平衡的情况有较好的鲁棒性,并能够解决尺度不一致的问题,适用于不同大小的目标,但是需要设置阈值,不同大小的阈值可能会有不同结果,适用于不同大小的目标。在Inner-IoU中,边界框回归的过程中,由于仅存在尺度差异,在IoU值的趋势是一致的,可以借助辅助边界框来获得实际边界框的回归质量。通过尺度因子ratio进行调节,对于低IoU的样本,采用较大尺度的辅助边框加速收敛。由于缺陷时数据的形状大小不一样,因此实际框的大小也不一样,所以边框自身形状因素和尺度因素也会影响回归结果,通过结合Shape-IoU,使回归损失同时关注边界框自身的形状与尺度,提升对形状多样化目标的适应性。
其中,Shape-IoU定义为
I o U = B B g t B B g t
w w = 2 × ( w g t ) s c a l e ( w g t ) s c a l e + ( h g t ) s c a l e
h h = 2 × ( h g t ) s c a l e ( w g t ) s c a l e + ( h g t ) s c a l e
式中: s c a l e为缩放因子; w w h h分别为水平方向和垂直方向的权重系数,其取值与GT框的形状有关。
d i s t a n c e s h a p e = h h · ( x - x g t ) 2 c 2 + w w · ( y - y g t ) 2 c 2
Ω s h a p e = t = w , h ( 1 - e - ω t ) θ ,   θ = 4
其中,
w w = h h · w - w g t m a x ( w , w g t ) w h = w w · h - h g t m a x ( h , h g t )
因此,Shape-IoU边界框回归损失为
L S h a p e - I o U = 1 - I o U + d i s t a n c e s h a p e + 1 2 Ω s h a p e
Inner-IoU边框损失函数定义为
L I n n e r - I o U = 1 - I o U i n n e r
将Shape-IoU应用到Inner-IoU中得到
L I n n e r - S h a p e - I o U = L S h a p e - I o U + I o U - I o U i n n e r
结合WIoU得到
L W I S - I o U v 1 = R W I o U L I S - I o U
R W I o U = e x p [ ( x - x g t ) 2 + ( y - y g t ) 2 ( W g 2 + H g 2 ) * ]
式中:*表示将 W g H g从计算图中分离,消除阻碍收敛的因素。引入一个 β构造非单调聚焦系数 r应用于 L W I S - I o U v 1,得到动态非单调的WIS-IoU。
L W I S - I o U = r · L W I S - I o U v 1
r = β δ α β - δ
β = L I o U * L I o U [ 0 , + )
通过优化损失函数,从而减少大量背景等易分类样本对模型训练的影响,提高缺陷识别的性能。基于以上信息,本文从提高精度和降低参数量的角度出发,在改进YOLOv8的主干网络过程中,通过设计新的轻量级网络结构,提高网络推理速度。在特征融合部分,重新构建了BiFPN的结构,根据数据集的特性删除了P6层的节点,将P2层直接与P3层的下采样连接,增强特征融合,防止网络深度过大而造成细节特征丢失,提高缺陷检测性能。通过优化边界框回归损失,增强边界框的收敛速度。

4 实验准备与结果分析

本文数据集均是从实验室项目中利用工业相机获取。通常有缺陷的瓶子一般存在黑点、冷斑、结石、气泡、裂纹和模缝。每类缺陷采集2 000张,一共采集12 000张图像,图像大小为640×640,同时应用Mosaic方法进行数据增强。通过LabelImg标注软件对数据集进行标注。将获取的数据按7∶2∶1的方式划分为训练集、验证集和测试集,以确保模型训练、验证和测试过程中的有效性。

4.1 实验室配置及评价指标

本次实验中所使用的硬件配置如表1所示。实验参数中,批量大小(batch_size)为32,训练周期(epoch)为200,采用随机梯度下降法,初始学习率为0.001。
表1 实验硬件配置
名称 参数
CPU Intel(R)Core(TM)i5-12490F
GPU NVIDIA GeForce RTX3060-12G
系统 Windows10
框架 Pytorch1.31.1+CUDA11.7
开发软件 PyCharm

4.2 消融实验

消融实验的结果如表2所示。本文主要对mAP@50、参数量、计算量进行比较。由表2可知,第一组以YOLOv8s为基线,后续的模型将以此基线进行对照。第二组将轻量级网络替换原模型网络,实验表明参数量相较于原YOLOv8s模型参数量下降19%,mAP@50提高0.2%。说明设计的特征提取网络较YOLOv8s网络有较好的优势,因此该网络在玻璃瓶缺陷上的特征提取能力是有效的,在参数量减少的同时精确度有了提升。第三组通过采用BiFPN的结构特征融合层进行改进。然后,对BiFPN进行重构,加强对8倍下采样尺度信息融合的能力,降低浅层和深层之间语义丢失的问题。采用重构后的BiFPN结构,参数量较YOLOv8s降低33%,计算量下降11%,同时精度提升0.9%,说明改进BiFPN结构能够有效提升识别的精度,并且去掉部分结构,减少了计算资源成本。第四组结合CM模块和BiFPN的特征融合,参数量和计算量分别下降45.8%和11.9%,说明两者结合极大降低了参数量,满足轻量化的要求,其精度上升0.2%,与第三组对比仅下降0.1%。第五组是在第四组的基础上重新改进IoU,YOLOv8s默认的IoU为CIoU,改为WIS-IoU后精确度较第四组提升0.2%,较第一组原模型提升1%。
表2 消融实验的结果
网络模型 mAP@50/% 参数量/M 计算量/G
YOLOv8s(baseline) 96.8 11.10 28.4
+GCNet 96.4 8.99 25.9
+BiFPN 97.1 7.39 25.2
+GCNet+BiFPN 97.0 6.01 25.0
+GB+WIS-IOU 97.2 6.01 25.0

4.3 不同算法之间对比分析

为了进一步验证改进模型的有效性,依次使用Faster R-CNN、YOLOv3-tiny、YOLOv5s11、YOLOv8s、YOLOv10s12、SSD、RT-DETR13模型进行对比实验,轻量化网络方面选择Fasternet14和Mobilenetv415进行对比。对于目标检测算法的评估指标采用mAP@50、参数量和计算量进行评价。改进的模型与其他模型的对比如表3所示。从表3可以看出,本文YOLOv8-GB改进模型在参数量和计算量上优于对比模型。Fasternet和Mobilenetv4在参数量和计算量上较其他对比模型有优势,但是在精度方面略低于本文的YOLOv8-GB模型。YOLOv10s参数量和计算量虽然在参数量上低于YOLOv8s,但是精度不及YOLOv8s。综合来看,本文改进的算法能够降低参数量和计算量,同时在精度方面也具有优势。
表3 改进的模型与其他模型的对比
模型 mAP@50/% 参数量/M 计算量/G
Faster R-CNN 96.8 40.00 207.1
YOLOv3-tiny 96.6 12.20 19.0
YOLOv5s 96.7 9.14 24.0
YOLOv8s 96.8 11.10 28.4
RT-DETR 96.2 22.20 53.0
SSD 95.5 26.30 87.7
YOLOv10s 96.1 7.24 21.6
Fasternet 96.9 8.64 21.9
Mobilenetv4 97.0 5.84 23.2
YOLOv8-GB 97.2 6.01 25.0

4.4 结果

为了验证模型的有效性,在实际场景中将YOLOv8s与改进的模型进行测试对比,对比结果如图8所示。每组中左图为YOLOv8s模型结果,右图为改进后的模型结果。
图8 YOLOv8-GBYOLOv8s模型结果对比续图8

5 结论

面向实际场景的玻璃瓶视觉检测,不仅要有较高的检测精度,而且还要有较低的计算量和参数量。本文针对YOLOv8模型参数量、计算量大的问题,提出了一种改进YOLOv8的轻量化模型算法,使其能够占用较少的计算资源,达到较高的检测精度。结果表明,本文设计的DCNet网络结合了BiFPN结构和WIS-IoU,能够有效地降低模型的参数量、计算量并提升精度。经过验证,相比于YOLOv8s模型,YOLOv8-GB参数量和计算量分别下降46%和12%,精度上提升,有效证明了YOLOv8-GB模型在实际场景中视觉检测上的有效性。
[1]
Eshkevari M Jahangoshai R M Zarinbal M,et al.Automatic dimensional defect detection for glass vials based on machine vision:a heuristic segmentation method[J].Journal of Manufacturing Processes202168:973-989.

[2]
Claypo N Jaiyen S Hanskunatai A.Inspection system for glass bottle defect classification based on deep neural network[J].International Journal of Advanced Computer Science and Applications202314(7):339-348.

[3]
Bereciartua P A Duro G Echazarra J,et al.Deep learning-based method for accurate real-time seed detection in glass bottle manufacturing[J].Applied Sciences202212(21):11192.

[4]
Zhou X N Wang Y N Xiao C Y,et al.Automated visual inspection of glass bottle bottom with saliency detection and template matching[J].IEEE Transactions on Instrumentation and Measurement201968(11):4253-4267.

[5]
Zhou X N Wang Y N Zhu Q,et al.A surface defect detection framework for glass bottle bottom using visual attention model and wavelet transform[J].IEEE Transactions on Industrial Informatics202016(4):2189-2201.

[6]
柴子凡,赵丽琴,蒋海波,等.基于Hough变换和K-means聚类的玻璃瓶分模线缺陷检测[J].机械设计与研究202339(3):171-174.

[7]
谢泽祺,徐巍,邹光明,等.基于卷积神经网络的玻璃瓶口缺陷检测[J].制造业自动化202244(6):104-108,160.

[8]
Chollet F.Xception:deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:1800-1807.

[9]
Zhang X Y Zhou X Y Lin M X,et al.ShuffleNet:an extremely efficient convolutional neural network for mobile devices[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:6848-6856.

[10]
Sandler M Howard A Zhu M L,et al.MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4510-4520.

[11]
Siliang M Yong X. Mpdiou: a loss for efficient and accurate bounding box regression[EB/OL].(2023-07-14)[2024-01-10].

[12]
Wang A Chen H Liu L H,et al.Yolov10:real-time end-to-end object detection[EB/OL].(2024-10-30)[2024-01-10].

[13]
Zhao Y A Lv W Y Xu S L,et al.DETRs beat YOLOs on real-time object detection[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle:IEEE,2024:16965-16974.

[14]
Chen J R Kao S H He H,et al.Run,don’t walk:chasing higher FLOPS for faster neural networks[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouver:IEEE,2023:12021-12031.

[15]
Qin D F Leichner C Delakis M,et al.MobileNetV4:universal models for the mobile ecosystem[M]//Computer Vision-ECCV 2024.Cham:Springer Nature Switzerland,2024:78-96.

文章导航

/