Information Science and Engineering

Phased self-supervised diagnostic model of lung CT image based on comparative learning

  • Xufei WANG ,
  • Yiwen QI ,
  • Youbin CEN ,
  • Shitong GUO ,
  • He LI
Expand
  • College of Automation,Shenyang Aerospace University,Shenyang 110136,China

Received date: 2023-10-31

  Online published: 2024-02-05

Abstract

Because of its efficient learning and characterization capabilities, the deep convolutional neural network (DCNN) model is widely used in the auxiliary diagnosis of various types of diseases, including lung disease. Most of the existing DCNN models are self-supervised,which have high requirements for the quantity and quality of data sets. However, the privacy of medical data and the high cost of data labeling greatly limit the performance and effectiveness of the model. A phased self-superivised diagnostic model based on comparative learning was proposed.The model extracted the features of unlabeled lung CT images augmented by random data which did not require too many labeled COVID-19 data sets for training, which effectively solved the problem that the small labeled data sets made it difficult to train supervised models. At the same time, four ablation experiments were designed to verify the performance of this model. The experimental results show that the model has excellent performance in the self-supervised diagnosis task of lung CT images of COVID-19.

Cite this article

Xufei WANG , Yiwen QI , Youbin CEN , Shitong GUO , He LI . Phased self-supervised diagnostic model of lung CT image based on comparative learning[J]. Journal of Shenyang Aerospace University, 2023 , 40(6) : 59 -67 . DOI: 10.3969/j.issn.2095-1248.2023.06.009

传染性肺病是一种在世界范围流行的具有高发病率和高死亡率的疾病,2019年爆发的新冠肺炎病毒(COVID-19)就是由一种名为SARS-Cov-2的病毒引发的。COVID-19传播速度快、致死率高1
许多确诊的COVID-19病例出现了肺炎放射学特征,放射学检查有助于判断患者是否感染以及感染程度。常见的放射学检查手段包括X射线2、计算机断层扫描(computed tomography,CT)3、磁共振成像(magnetic resonance imaging,MRI)4等。X射线一般用来检查肺部是否有纹理增生或大块肿块,CT是在X射线基础上发展起来的,其检测灵敏度和准确性都优于X射线,而运动伪影的干扰使得MRI在肺部疾病诊断中的应用非常有限。因此,利用肺部CT图像研究智能诊断算法辅助提升COVID-19的诊断具有一定的研究价值。
现有肺部CT诊断算法通常需要大量标注数据集来对模型进行训练。然而,由于医疗图像数据的特殊性,建立大规模医学数据集有困难;同时,医疗图像需要经验丰富的影像科医师花费大量时间来标注。因此,有监督学习方法的应用存在较大局限性。相比之下,自监督学习(self supervised learning, SSL)5不需要标注数据就可以学习数据的特征表达,可有效节省标记数据的人力和时间成本。因此,自监督学习可以用来提取和表征肺部CT图像的特征,并通过下游任务实现对图像的分类。
对比学习是一种自监督学习方法,能够在没有标签的情况下,利用模型学习同类数据的共同特征、区分非同类数据的不同之处5。自监督对比学习在自然图像处理任务上已经表现出了优越性能。宁重阳等6提出了一种基于视觉变换网络的自监督识别模型,同时设计了一种基于傅里叶低频混合变换的数据增强方法,实验结果表明,该模型在森林火灾识别任务中有较好的识别效果。张益天等7提出了一种基于轻量级胶囊网络的自监督检测方法,该方法在5个真实SAR数据集上运行效率更高、鲁棒性特征更强。Tu等8提出了一种采用辅助增强策略和GNT-Xent损失函数的自监督学习方法,在CIFAR和SVHN数据集均有良好的表现。Han等9提出了一种自监督的嵌入式方法,在粗/细粒度数据上有出色表现。
除了自然图像处理领域,现有文献中也可见对医学图像的自监督算法研究。曹春萍等10提出了一种融合片内语义和片间结构特征的自监督CT图像分类方法,实验结果表明,标注数据有限时该方法有更好的分类性能和标签利用效率。曹达等11提出了一种基于自监督学习网络的多层同时扫描扩散张量成像去噪方法,实验结果表明,该方法可以有效去噪并提高图像质量。Han等12提出了一种半监督端对端的对比学习模型,在X射线图像分类和定位任务中表现良好。Zhang等13提出了一种基于向心对比学习视觉表征的网络框架,该框架在有限的COVID-19 CT数据集上有较好的表现。
本文提出了一种基于对比学习的阶段式自监督模型来解决肺部新冠肺炎CT图像识别分类问题。该模型由3个阶段组成:预训练阶段利用自然图像数据集对模型进行预训练,训练好的网络权重信息通过迁移进行利用;自监督对比训练阶段由数据增强模块、编码器模块和多层感知器模块组成,对未标记的肺部CT图像进行特征学习与表征;微调阶段使用一定数量的标注数据集进行全连接层参数的调整。最终,实验结果表明,本文提出的阶段式自监督对比学习模型具有良好的性能。

1 基于对比学习的肺部CT图像阶段式自监督诊断模型

1.1 模型框架设计

为了解决有监督深度卷积神经网络模型在训练过程中受限于大量标注肺部图像数据的问题,本文采用自监督算法,提出了一种基于对比学习的肺部CT图像阶段式自监督诊断模型,模型框图如图1所示。该模型基于SimCLR框架,由数据增强模块、编码器模块和多层感知器模块组成,主体网络结构采用残差块,可有效解决梯度消失和梯度爆炸等问题。由图1可见,该模型包括3个阶段:预训练阶段、自监督对比训练阶段以及微调阶段。预训练阶段利用ImageNet自然数据集对DCNN模型进行预训练;自监督对比训练阶段利用增强后的未标记肺部CT数据深度表征数据的特征;微调阶段使用有限的标注数据对分类器参数微调,提高模型分类精度。阶段式自监督对比学习算法流程如表1所示。
图1 基于对比学习的肺部CT图像阶段式自监督诊断模型框图
表1 阶段式自监督对比学习算法流程

算法1 阶段式自监督对比学习

输入:标注数据 D l a b e l e d、未标注数据 D u n l a b e l e d

输出:训练好的自监督对比学习模型 m

1. 设计模型 m

2. 阶段一—预训练阶段:在ImageNet数据集上训练模型 m,同时保存模型参数

3. 阶段二—自监督对比训练阶段:

a. 数据增强模块

b. 编码器模块

c. 多层感知器模块

4. 阶段三—微调阶段:去除多层感知器并添加全连接层,使用 D l a b e l e d对模型进行微调

5. 测试模型 m

6. 返回 训练好的模型 m

1.2 预训练阶段

自然图像和医学图像均属于图像数据,其底层特征之间存在相似性。然而,医学领域内高质量、标注准确的数据往往很难收集,同时考虑到患者隐私问题,大多数医疗数据集都无法公开,这些因素导致缺少大规模、高质量的医学图像数据集。迁移学习的核心是知识的迁移和再利用,其常被用来解决训练样本少、计算资源昂贵等问题。
因此,预训练阶段利用自然图像数据集ImageNet对搭建的网络模型进行预训练,保存模型权重参数并进行迁移,这一操作省去了模型对图像初级特征的重新学习过程,可以有效提升模型对肺部CT图像的识别精度。

1.3 自监督对比训练阶段

自监督对比训练阶段是模型训练中最关键的环节,需要对没有标记的肺部CT图像进行自监督训练。因此,如何从肺部图像中准确高效地提取病灶差异特征显得尤为重要。自监督对比训练的核心思想是利用编码器充分提取未标注数据的同类特征,区别异类特征。
自监督对比学习原理如图2所示。首先,模型输入未标记的肺部CT图像,利用数据增强方法对输入的图像进行操作,扩充肺部图像样本数据,将同一图像的两张随机增强图像定义为正样本,其余同批次下其他数据增强后的图像均为负样本。数据增强操作如式(1)所示
x ˜ i = t 1 ( x ) ,   x ˜ j = t 2 ( x )
式中:x为输入图像; x ˜ i x ˜ j为增强后的数据; t 1 ( ) t 2 ( )为数据增强操作。本文使用到的数据增强方法主要分为两类:一类为裁剪或调整图像,包括水平翻转、旋转、裁剪等操作;另一类为颜色变换,包括改变亮度、对比度、色调、灰度变换等操作。利用数据增强来增加肺部CT图像的数据多样性并引入变化,增强后图像数据分布基本一致,即增强前后的语义一致,数据增强前后的肺部CT图像样例如图3所示。
图2 自监督对比学习原理框图
图3 数据增强前后的肺部CT图像样例
其次,设计一个编码器对增强后的未标记肺部CT图像进行特征提取,使用残差网络作为编码器f(·)的基础框架,利用残差块的跨层连接这一特性来解决DCNN训练中梯度消失和梯度爆炸等问题,编码器之间是共享参数的。设计的基于残差块的编码器f(·)可以有效地学习、表征和提取输入CT图像的特征,将图像编码成特征向量并通过平均池化操作输出,特征向量定义为 h,具体操作如式(2)所示
h i = f ( x ˜ i ) ,   h j = f ( x ˜ j )
然后,基于多层感知器(multilayer perceptron,MLP)设计一个投影头g(·),将编码器提取到的图像特征投影到另一个向量空间,如式(3)所示。投影头是一个2层的MLP,将编码器f(·)输出的2048维特征向量映射到128维空间中,得到新的特征向量 z,这里的MLP仍然是共享参数的。
z i = g ( h i ) ,   z j = g ( h j ) z i = ω 2 R e L U ( ω 1 h i ) ,   z j = ω 2 R e L U ( ω 1 h j )
式中: ω 1 ω 2为MLP的权重参数;ReLU为激活函数。
最后,定义损失函数,利用特征向量 z i z j计算损失并完成模型训练,如式(4)所示。损失函数L利用余弦距离来计算正样本、负样本之间的相似性。
L = L s i m ( z i , z j )
式中: s i m ( z i , z j )是一个表示相似性的函数。
至此,完成自监督对比训练阶段的设计。在没有标签的情况下,利用设计的编码器完成对输入CT图像的特征学习、提取和表征。

1.4 微调阶段

在自监督对比训练阶段后,将模型中的MLP移除并添加全连接层来完成下游任务。在下游肺部CT图像分类任务中,需要使用少量标注数据对模型进行微调,具体为调整全连接层的权值参数以满足分类精度。因此,在微调阶段,利用有限数量的带标签的肺部CT图像对全连接层参数进行调整,微调后的模型可用于肺部CT图像分类任务的验证与测试。

2 实验设置

为验证测试设计的阶段式自监督对比学习模型,本节将定义模型相关的评价指标,设置模型训练过程中的损失函数,并介绍本实验使用的训练数据集。

2.1 评价指标

为了更好评估所提出的二分类模型,实验中使用4个指标来证明性能:准确性(Accuracy)是模型正确分类样本的比例;精确度(Precision)是模型预测为正类的样本中实际为正类的比例;召回率(Recall)是指实际为正类的样本中被模型正确预测为正类的比例;F1分数(F-1 score)综合考虑了精确率和召回率。这些评价指标的定义如下
A c c u r a c y = T P + T N T P + F P + T N + F N
P r e c i s i o n = T P T P + F P
R e c a l l = T P T P + F N
F - 1    s c o r e = 2 · P r e c i s i o n · R e c a l l P r e c i s i o n + R e c a l l
式中:TP为真阳性;TN为真阴性;FP为假阳性;FN为假阴性。

2.2 损失函数

在自监督对比训练阶段,损失函数采用标准化温度尺寸的交叉熵损失函数8,其定义
L i , j = - l n e x p ( s i m ( z i , z j ) / τ ) k = 1 2 N ƛ k i e x p ( s i m ( z i , z j ) / τ )
s i m ( z i , z j ) = z i T z j / ( | | z i | |   | | z j | | )
式中: ƛ k i为一个指示函数,当且仅当 k = i时取0,否则取1; τ为用于优化的温度参数。
此外,在微调阶段,使用交叉熵损失(cross entropy loss,CE Loss)函数来更新网络权重参数。该函数是LogSoftmax和NLLLoss的组合,其定义为
C E   L o s s ( x , t a r g e t ) = - 1 N n = 1 N            ( c = 1 C t a r g e t n c l n ( e x p ( x n c ) c = 1 C e x p ( x n c ' ) ) )
式中:N为样本数;C为类别数; x 为模型的输出,它是一个以[N,C]形式表示的张量; e x p ( x n c )为第c类中n个样本的指数得分; t a r g e t n c为一个二进制变量,如果样本n的真类别是c,那么该值为1,否则为0; c = 1 C e x p ( x n c ' )为平均所有类别的指数分数总和。

2.3 实验数据集

COVID-19 CT是由Yang等14构建的开源数据集,包含来自216例患者的349张COVID-19 CT图像和463张无COVID-19 CT图像。在实验中,将该数据集按7:1:2的比例进行划分,分别用于阶段二、阶段三的训练与测试。COVID-19 CT数据集的划分如表2所示,部分数据样例如图4所示。
表2 COVID-19 CT数据集的划分
类别 阶段二 阶段三 测试 总计
总计 548 81 163 812
COVID-19 224 35 70 349
无COVID-19 324 46 93 463
图4 数据集中的样本图片

3 实验结果及分析

本文设计4个消融实验来评估提出的基于对比学习的阶段式自监督模型,包括不同数据增强方法验证实验、不同批次大小验证实验、不同比例微调训练数据验证实验和不同编码器验证实验。

3.1 训练设置

本文所有实验都是在搭载Python3.8编译环境的Pytorch深度学习框架下,在两张32 G内存的NVIDIA 3090Ti GPU显卡上运行。输入模型的CT图像大小为256×256×3,自监督对比模型训练1 000轮,微调训练500轮,完成后保存最终模型的网络参数。模型学习率为1e-3,权重衰减值为1e-6,采用余弦退火学习率衰减策略,温度参数为0.5。

3.2 实验一:不同数据增强方法验证

在自监督对比训练阶段,对输入CT图像进行数据增强操作。为了系统地研究不同增强方法对自监督对比模型的影响,设计了本实验。本实验用到的如表3所示两类数据增强方法15:一类为图像调整,包括随机裁剪(random crop, RC)、中心裁剪(center crop, CC)、随机水平翻转(random horizontal flip, RHF);另一类为图像变换,包括随机颜色抖动(random color jitter,RCJ)、随机灰度(random grayscale,RG)。其中,随机颜色抖动包括对图像的亮度、对比度、饱和度和色相进行变换。
表3 数据增强方法细节
数据增强方法 参数信息
随机裁剪RC 按256×256的大小裁剪
中心裁剪CC 以50%概率进行裁剪
随机水平翻转RHF 以50%概率进行翻转
随机颜色抖动RCJ

亮度=0.8, 对比度=0.8,

饱和度=0.8, 色相=0.2

随机灰度RG 以20%概率进行变换
依次使用上述数据增强方法组合进行验证实验,训练过程Loss变化如图5所示,测试结果如图6所示。
图5 不同数据增强策略下模型的训练过程
图6 不同数据增强策略下的模型测试结果
从图5~6可以看到,数据增强方法对模型特征提取能力影响较大,只对CT图像进行单一的调整(裁剪、翻转等)并不能提高模型的测试精度,图像变换操作可以一定程度上改变图像的特征,其中“随机裁剪+随机灰度”策略可以较大程度提高模型性能。因此,随机裁剪和随机灰度变换对提升阶段式自监督对比学习模型的性能极为关键。

3.3 实验二:不同批次大小验证

在自监督对比训练过程中,当批次大小为n时,经过数据增强操作后的CT图像为2n,第i i ( 1,2 n )]张图像与其他2n-1张图像进行比较,模型学习不同CT图像之间的特征差异。开展了批次大小=2,4,8,16,32,64下的验证实验,训练过程曲线如图7所示,模型测试结果如图8所示。
图7 不同批次大小下模型的训练过程
图8 不同批次大小下的模型测试结果
从实验结果可见,批次大小=2时模型精度最低,批次大小=16时模型精度最高。这表明随着批次大小逐渐增大,模型性能也随之提升。当批次大小继续增大,模型性能会有一定降低。在一轮训练中,输入模型的CT图像太少会导致模型无法充分比较来学习CT图像中的差异特征,本模型的最佳批次大小为16。

3.4 实验三:不同比例微调训练数据验证

在微调阶段,用全连接层替换MLP,需要使用少量标注好的CT图像调整全连接层参数。为了探究不同比例微调训练数据对测试结果的影响,随机挑选了239张标注图像,按照一定比例输入模型进行训练,训练过程曲线如图9所示,测试结果如图10所示。
图9 不同微调比例数据下模型的训练过程
图10 不同微调比例数据下的模型测试结果
实验结果表明,随着微调阶段训练数据比例的增加,模型的分类能力不断提升,最终的测试精度也逐步提高。

3.5 实验四:不同编码器验证

编码器作为本文阶段式自监督对比学习模型的重要组成部分,其学习表征CT图像特征的能力将直接影响模型最终性能。为研究不同编码器结构对模型性能的影响,本实验选择了VGG16、ResNet18、ResNet101、Dense Net-121和Dense Net169等编码器。实验结果如图11所示,随着网络层数增加,模型精度不断提高。其中,编码器VGG16的性能最差,ResNet50的性能最优。因此,本文选择ResNet50作为自监督对比训练阶段的编码器。
图11 不同模型的测试结果
综合上述4个验证实验,在随机裁剪和随机灰度数据增强策略、训练批次为16、微调阶段训练数据比例为0.6、编码器为ResNet50的方案下,本文提出的基于对比学习的阶段式自监督诊断模型获得了最佳性能。同时,该算法仅需143张标注新冠肺炎CT样本,而采用传统的监督学习方法需要568张(按照7:3的比例划分训练和测试数据7),本文模型减少了模型对标注数据集的依赖。

4 结论

本文提出了一种基于对比学习的阶段式自监督诊断模型,用来解决新冠肺炎CT图像识别分类任务,该模型由预训练、自监督对比训练和微调3个阶段组成,网络基础框架由残差网络构成。通过设计4个消融验证实验,包括不同数据增强方法验证实验、不同批次大小验证实验、不同比例微调训练数据验证实验和不同编码器验证实验,全面验证了模型的性能。实验结果表明,本文提出的阶段式自监督对比学习模型在肺部CT图像识别分类任务中有着良好的表现。与传统的监督学习方法相比,本文模型对标记好的肺部CT图像依赖性更低。
1
杨清源,瞿介明.呼吸感染性疾病诊治年度进展2022[J].中华结核和呼吸杂志202346(2):168-171.

2
袁莹.医学影像后处理技术的研究及其在X射线影像优化中的应用进展[J].中国医疗器械信息202026(1):43,50.

3
Goldman L W.Principles of CT and CT technology[J].Journal of Nuclear Medicine Technology200735(3):115-130.

4
Plewes D B Kucharczyk W.Physics of MRI:a primer[J].Journal of Magnetic Resonance Imaging201235(5):1038-1054.

5
张重生,陈杰,李岐龙,等.深度对比学习综述[J].自动化学报202349(1):15-39.

6
宁重阳,汤梓桐,谢亦秋,等.基于视觉变换网络的自监督森林火灾识别[J].中南林业科技大学学报202343(7):32-40.

7
张益天,罗喜伶,王宇鹏.基于轻量胶囊网络的自监督图像变化检测方法[J/OL].北京航空航天大学学1-17(2023-08-30)[2023-10-19].

8
Tu Y L Feng J X Yang Y.AAG:self-supervised representation learning by auxiliary augmentation with GNT-xent loss[EB/OL].(2020-10-20)[2023-10-19].

9
Han S Xu Y Z Park S,et al.A comprehensive approach to unsupervised embedding learning based on AND algorithm[EB/OL].(2020-02-26)[2023-10-19].

10
曹春萍,许志华.融合片内语义和片间结构特征的自监督CT图像分类方法[J/OL].电子科技1-11(2023-09-04)[2023-10-19].

11
曹达,王伟,徐露露,等.基于自监督学习网络的多层同时扫描扩散张量成像去噪研究[J].中国医疗设备202237(8)142-146.

12
Han Y Chen C Y Tewfik A,et al.Knowledge-augmented contrastive learning for abnormality classification and localization in chest X-rays with radiomics using a feedback loop[C]//2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV).Waikoloa.IEEE,2022:1789-1798.

13
Zhang S H Zou B Y Xu B Q,et al.An efficient deep learning framework of COVID-19 CT scans using contrastive learning and ensemble strategy[C]//2021 IEEE International Conference on Progress in Informatics and Computing (PIC).Shanghai,IEEE,2022:388-396.

14
Yang X Y He X H Zhao J Y,et al.COVID-CT-dataset:a CT scan dataset about COVID-19[EB/OL].(2020-06-17)[2023-10-19].

15
Shorten C Khoshgoftaar T M.A survey on image data augmentation for deep learning[J].Journal of Big Data20196(1):1-48.

Outlines

/