基于ResNet的图像分类模型

(整期优先)网络出版时间:2024-04-17
/ 3

基于ResNet的图像分类模型

李俊锋

(天津工业大学)

摘要

图像分类模型是一种能够从图像中识别出不同类别的标签的机器学习模型,它在计算机视觉领域有着广泛的应用。本文提出了一种基于ResNet的图像分类模型,利用深度残差网络(ResNet)的优势,提高了模型的准确性和鲁棒性。我们首先介绍了ResNet的结构和原理,然后在CIFAR-10数据集上评 估了我们的模型。实验结果表明,我们的模型取得了优异的结果。本文为图 像分类模型的设计和优化提供了一种有效的深度学习方法,也为其他类似的

计算机视觉任务提供了参考。

关键词:ResNet图像分类,深度学习,残差网络,计算机视觉

Abstract

Imageclassificationmodelisakindof machinelearningmodelthatcanrec- ognize different categories of labels fromimages,andithasawideapplicationin the field of computer vision.In this paper, animageclassificationmodel basedon ResNetis proposed,whichtakesadvantageof deep residualnetwork(ResNet)to improvetheaccuracyandrobustnessofthemodel. Wefirstintroducedthestructure and principles of ResNet,and then evaluated ourmodelontheCIFAR-10dataset. The experimentalresults show that our model achieves excellentresults.Thispaper provides an effective deep learning methodforthedesignandoptimizationof im- age classification models, and also provides a reference for othersimilarcomputer vision tasks.

1


 

1引言

随着计算能力的提升和大规模数据集的普及,深度学习在图像处理领域取得了显 著的成功。深度神经网络在图像分类任务中表现出色,但随着网络深度的增加,梯度消失和梯度爆炸等问题变得更加严重,影响了模型的训练和性能。因此,对于解决这些问题的探索成为当前深度学习研究的一个重要方向。图像分类作为计算机视觉领域的核 心任务,涉及到许多实际应用,如智能监控、医学图像诊断、自动驾驶等。提高图像分 类模型的性能对于这些应用的实现至关重要。通过研究基于ResNet的图像分类模型,可 以为这些领域提供更加准确和可靠的图像识别技术。ResNet的提出是深度学习领域的一 个重要里程碑,其引入的残差连接使得网络更深时反而更易训练。这一创新不仅提高 了模型的收敛速度,还增强了模型对特征的提取能力。因此,基于ResNet的图像分类模 型有望在提高分类准确性的同时,降低训练难度。现实中的图像数据具有复杂性、多 样性和噪声,传统的图像分类方法在处理这些挑战时可能表现不佳。通过深入研究基 ResNet的图像分类模型,我们可以期望改进模型对复杂图像模式的学习能力,提高在 真实场景中的应用效果。本研究不仅有助于深入理解ResNet模型在图像分类任务中的工 作机制,还为深度学习领域的其他研究提供了借鉴和拓展的方向。通过对ResNet模型的 优化和改进,我们有望推动图像分类技术的发展,并为未来更复杂任务的解决提供基

础。

2020年赵诚诚对卷积神经网络模型AlexNet进行了优化,通过对预处理、网络结构和激活函数的优化,使其不仅能够有效地减少计算量与参数规模,还可以进一步提高网 络模型的识别准确率。但是其并没有解决网络层数过深导致的梯度消失问题[1] 2020 安源,刘春,蔡朝晖等,改进了LeNet-5深度卷积神经网络模型。他们设计局部误差结构,用算法来增加局部误差产生数量和层间权值的调整次数,最终模型收敛速度更快、分 类准确率更高。但是其原始特征保留的不够充分,泛化能力较差[2] 2020年陈智勇, 万昌,李晓慧等使用VGG16神经网络模型对棉花等级进行分类,能够较好地完成对棉花的等级分类任务。然而VGG16训练时间过长,调参难度大,且需要的存储容量大,不利于部署[3] 2021年吴季提出了改进的Inception-V3模糊图像分类模型。通过使用DropoutKaiming等算法优化了模型,有效解决了模糊图像中因样本量少所导致的分类精度低问

题。但是还是无法解决梯度消失和梯度爆炸的问题[4] 2022年张天宝使用改进的VGG络模型进行图像分类的研究,有效地提高分类精度和降低网络的损失值。但是其计算资

源耗费较多,并且使用了更多的参数,导致更多的内存占用[5]

基于以上分析,梯度消失、梯度爆炸等问题很常见,图像识别方面的研究还不到

2


 

位。因此,本文提出了一种基于ResNet的图像分类模型,利用深度残差网络(ResNet

的优势,提高了模型的准确性和鲁棒性。

2方法

ResNet是一种深度卷积神经网络,它的特点是使用了残差学习的方法来解决深层网 络的退化问题。退化问题是指随着网络层数的增加,网络的训练误差不再下降,甚至上

升,导致网络性能下降,残差学习的思想是将网络的输出表示为输入和残差的和[6],

y= x + F(x)                                                        (1)

其中x是输入,y是输出,F(x)是残差函数。这样,网络只需要学习残差函数,而不是直

接学习输出函数,从而降低了网络的复杂度和难度。

残差模块的核心是使用了恒等映射,即直接将输入加到残差函数的输出上,形成一个跨层的连接。这样,当残差函数为零时,网络的输出就等于输入,相当于没有增加任何层。这种恒等映射可以有效地保持网络的信息流动,避免梯度消失或爆炸,提高网络的训练效率和性能。ResNet的网络结构是由多个残差模块堆叠而成的,每个残差模块的

输出通道数和步长可以根据需要调整。ResNet的网络结构示意图如下[6]

Figure1:ResNet网络结构

本文采用ResNet18结构,ResNet-18ResidualNetwork(残差网络)系列中的一个 相对较小的模型,它在图像分类任务中表现出许多优点,使其成为深度学习研究和应用中的一种重要选择。其相较于其他深度神经网络,如VGGGoogLeNet,具有相对简单 的层次结构。这使得ResNet-18更易于理解、实现和调整,同时减少了模型参数的数量,

有助于在资源有限的环境中进行部署和训练。

3


 

3实验

3.1数据集

本次实验使用CIFAR-10数据集,数据集由10 6000032x32彩色图像组成,每

6000张图像。有50000张训练图像和10000张测试图像。

数据集分为5 个训练批次和1 个测试批次,每个批次有10000 张图像。测试批次正 好包含从每个类中随机选择的1000张图像。训练批次以随机顺序包含剩余的图像,但 某些训练批次可能包含来自一个类的图像多于另一个类。在它们之间,训练批次正好包

含来自每个类的5000张图像。

以下是数据集中的类,以及每个类的10张随机图像:

Figure 2:数据集

这些类是完全互斥的。汽车和卡车之间没有重叠。“汽车”包括轿车、SUV等。“卡

”仅包括大型卡车。两者都不包括皮卡车。

4


 

3.2实现

由于该数据集自身的特点,本文在ResNet18的基础上进行了一些更改,在测试集的

准确度上有所提高。网络结构如下:

Figure 3:网络结构

损失函数采用了交叉嫡损失函数CrossEntropyLoss,该损失函数结合了nn.LogSoftmax() nn.NLLLoss()两个函数。故在ResNet中没有重复写Softmax。优化算法采SGD,学习

5


 

率为0.1,动量为0.9。最终模型损失函数的变化曲线图如下:

Figure 4:损失函数变化曲线

精度的变化曲线图如下:

Figure 5:精度变化曲线

通过绘制模型的准确率和损失曲线,可以了解模型的收敛情况。对于损失曲线,随着训练轮数的增加,下降速度由快到慢,最后趋近于零。精度曲线上升由慢到快,最后趋于平稳。可以看出ResNet有效地解决了深度网络训练中的梯度消失和梯度爆炸问题,

随着训练时间的增长,损失趋于零,精度依旧稳定甚至有微小的增长。

4结论

图像分类模型是一种能够从图像中识别出不同类别的标签的机器学习模型,它在

计算机视觉领域有着广泛的应用。但是梯度消失、梯度爆炸等问题很常见,图像识别方

6


 

面的研究还不到位。因此,本文利用深度残差网络(ResNet)的优势,提高了模型的准

确性和鲁棒性。具体成果如下:

(1)  通过搭建ResNet模型实现了图像分类任务,并取得了较好的精确度。

(2)  有效地解决了深度网络训练中的梯度消失、梯度爆炸等问题。

然而,尽管上述方法可解决梯度消失、梯度爆炸等问题,其仍然具有一定的改进空

间,包括:

(1)  尽管ResNet引入了残差连接,允许训练非常深的网络,但对于某些复杂任务,可能 需要更深层次的网络结构。进一步探索更深层次的残差网络结构,或者结合其他的

深度学习技术,如注意力机制,可能有助于更好地捕捉复杂的特征和模式。

(2)  进一步优化残差单元的设计,包括更有效的激活函数、权重初始化策略和批归一化

方法,可能有助于提高模型的收敛速度和性能。

7


 

参考文献

[1]  .   [D].

,2021.DOI:10.27251/d.cnki.gnjdc.2020.001191.

[2]  安源,刘春,蔡朝晖等.基于改进的LeNet-5网络在单通道图像分类中的研究[J].信息技

,2020,44(12):8-10+16.DOI:10.13274/j.cnki.hdzj.2020.12.002.

[3]  陈智勇,高万昌,李晓慧等.一种基于卷积神经网络参数优化棉花等级分类算法[J].

国纤检,2020(12):116-119.DOI:10.14162/j.cnki.11-4772/t.2020.12.036.

[4]  吴 季.        基 于 深[D].

,2023.DOI:10.26918/d.cnki.ghngc.2021.000691.

[5]  张 天 宝.     基 于 改 进VGG网 络 的 图 像 分 类 方 法 研 究[D].安 徽 理 工 大

,2022.DOI:10.26918/d.cnki.ghngc.2022.000646.

[6]  HeK,ZhangX, RenS, etal. Deepresiduallearningforimagerecognition[C]//Proceedings

oftheIEEEconferenceoncomputervisionandpatternrecognition. 2016:770-778.

8