基于轻量化YOLO v5s-MCA的番茄成熟度检测方法

奚小波 丁杰源 翁小祥 王 昱 韩连杰 邹贇涵 唐子昊 张瑞宏

(扬州大学机械工程学院,扬州 225127)

摘要:针对自然环境下番茄识别易受复杂背景干扰、相邻果实成熟度相似难以检测等问题,本文提出了一种轻量化YOLO v5s-MCA番茄成熟度识别模型,划分成熟期、转熟期、转色期和未熟期4个成熟度等级。该模型在YOLO v5s基础上使用MobileNetV3网络,减少了模型参数量;在主干网络和颈部网络引入坐标注意力机制(Coordinate attention,CA),提高了模型对番茄特征表达能力;将颈部网络替换为加权双向特征金字塔网络BiFPN,强化了模型特征融合性能并提高了模型识别准确率;将颈部网络中的标准卷积模块改进为GSConv卷积,减轻了模型复杂度并提高了对目标信息的获取能力。试验结果表明,YOLO v5s-MCA模型参数量仅为2.33×106,计算量仅为4.1×109,模型内存占用量仅为4.83 MB,其精准度和平均精度均值分别达到92.8%和95.1%,相对YOLO v5s基础模型分别提升3.4、4.4个百分点。对比YOLO v3s、YOLO v5s、YOLO v5n、YOLO v7、YOLO v8n及YOLO v10n等6种模型,YOLO v5s-MCA模型轻量化效果与检测性能最优。

关键词:番茄; 成熟度检测; 图像识别; YOLO v5s; 轻量化

中图分类号:S224.9

文献标识码:A

文章编号:1000-1298(2025)03-0383-09

OSID:

doi:10.6041/j.issn.1000-1298.2025.03.038

收稿日期:2024-10-25

修回日期:2024-11-19

基金项目:江苏省科技计划现代农业项目(BE2018302)、江苏省研究生科研与实践创新计划项目(SJCX24_2211)和扬州大学高端人才支持计划项目

作者简介:奚小波(1989—),男,副教授,博士,主要从事智能农业装备研究,E-mail:xxbctg@126.com

通信作者:张瑞宏(1960—),男,教授,博士生导师,主要从事智能农业装备研究,E-mail:zhang-rh@163.com

Tomato Maturity Detection Method Based on Lightweight YOLO v5s-MCA

XI Xiaobo DING Jieyuan WENG Xiaoxiang WANG Yu HAN Lianjie ZOU Yunhan TANG Zihao ZHANG Ruihong

(School of Mechanical Engineering,Yangzhou University,Yangzhou 225127,China)

AbstractAiming to address the challenges of tomato recognition in natural environments,such as interference from complex backgrounds and difficulty in detecting adjacent fruits with similar ripeness levels,a lightweight YOLO v5s-MCA model for tomato ripeness detection was proposed.The model categorized tomato ripeness into four distinct stages:mature,turning mature,color transition,and immature.Firstly,it incorporated the MobileNetV3 network as the backbone,significantly reducing the model’s parameter count and computational requirements.Moreover,the coordinate attention (CA) mechanism was integrated into the backbone and neck networks,enhancing the model’s ability to enhance the model’s ability to represent tomato features.Additionally,the neck network was replaced with a weighted bidirectional feature pyramid network (BiFPN) to strengthen feature fusion and improve recognition accuracy.The standard convolution modules in the neck network were also replaced with GSConv convolution to reduce model complexity and enhance the ability to capture target information.Experimental evaluations revealed the superior performance of the YOLO v5s-MCA model.The model achieved a parameter count of only 2.33×106,with a computational cost of 4.1×109 and a memory footprint of just 4.83 MB.The model achieved a precision of 92.8% and a mean average precision (mAP) of 95.1%,representing improvements of 3.4 percentage points and 4.4 percentage points,respectively,compared with the baseline YOLO v5s model.To further validate the effectiveness of the YOLO v5s-MCA model,it was compared with six other models,including YOLO v3s,YOLO v5s,YOLO v5n,YOLO v7,YOLO v8n,and YOLO v10n.Among these,the YOLO v5s-MCA model outperformed its counterparts in terms of lightweight design and detection performance.

Key wordstomato; maturity detection; image recognition; YOLO v5s; lightweight

0 引言

番茄成熟度会直接影响番茄加工品质与生产效率[1-2],成熟度检测为番茄生长环境的数据统计与生态种植过程中的实时数据采集提供了技术支撑[3]。机器视觉技术在农业领域有广泛应用,涉及目标识别与定位、计数、采摘、监测等方面[4-5],通过机器视觉完成番茄成熟度识别是一种有效方法。

国内外学者采用机器视觉实现草莓、苹果、香蕉等果实成熟度的检测[6-8]。目前,单阶段目标识别算法YOLO[9]受到业界学者广泛关注,可直接将标准化的图像输入卷积神经网络进行目标识别。CHEN等[10]基于YOLO v7算法开发了一种多任务深度卷积神经网络,通过增加两个解码器来检测番茄果实簇成熟度。ZHENG等[11]在YOLOX模型中引入DenseNet作为主干,并结合CBAM模块提升特征融合效果,从而提高检测精度。ZHANG等[12]采用YOLOX模型,引入解耦头部结构,根据无锚概念重新设计检测头部,提高了对小目标遮挡的识别能力。DU等[13]提出了YOLO-MCNN多任务卷积神经网络,融合多尺度特征并优化语义分割分支,以精确检测番茄姿态及其茎部位置。TIAN等[14]提出了一种改进的YOLO v3模型,用于不同光照条件、复杂背景以及遮挡等情况下检测不同成熟度苹果。廖娟等[15]将跨阶段部分网络融合模块嵌入YOLO v5的主干网络,引入空间深度转换卷积,利用轻量级卷积GSConv提高对水稻病害的定位和类别预测。李丽等[16]提出一种多通道信息融合网络YOLO v5-citrus,实现对柑橘果实的精准识别、分类和定位。上述基于深度学习的目标检测技术比传统图像处理方法精度高[17],其大多通过加入新的模块机制以提升网络识别精度,关注点聚焦在提升模型性能,忽视了模型参数量和复杂度。刘建航等[18]基于YOLO v4模型,以MobileNetV2为主干网络,采用K-means++聚类算法并改进DIoU算法,获得了轻量级番茄串检测模型。吕强等[19]提出一种改进的YOLO v5s模型,使用GhostNet网络实现轻量化,并嵌入全局注意力机制,实现自然场景中绿色柑橘果实精准检测。苗荣慧等[20]将MobileNetV3引入YOLO v7作为主干网络并添加全局注意力机制,实现了模型轻量化,并提高了网络特征表达能力。轻量化设计后模型检测速度提高,但检测精度效果不明显,当前兼具检测效率和精度的方法较少。

番茄生长枝条上少则1~2颗,多则7~8颗,果实间存在遮挡,同一株上果实成熟度有差异,这些情况会导致对遮挡及相邻果实的成熟度检测能力较差[12]。针对上述问题,本文提出一种YOLO v5s-MCA模型,引入轻量级网络替换主干网络实现轻量化,更换新的特征融合网络,并加入CA注意力机制和GSConv卷积模块提升模型的检测精度,同时改进损失函数和NMS算法进一步保证模型识别效果。通过试验验证YOLO v5s-MCA模型性能,并与YOLO v3s、YOLO v5s、YOLO v5n、YOLO v7、YOLO v8n及YOLO v10n等模型进行对比。

1 材料与方法

1.1 数据采集

番茄图像从江苏省扬州市蒋王镇果蔬种植示范园采集,采集设备为Xiaomi 13手机智能终端。番茄成熟度主要通过颜色来判断,如图1所示。相关标准GH/T 1193—2021[21]按照番茄颜色和大小,将番茄成熟度分为未熟期、绿熟期、变色期、红熟前期、红熟中期和红熟后期。番茄刚结果时其表皮颜色为白绿色,到了绿熟期,白色褪去绿色为主,将未熟期和绿熟期列为未熟期,这个时期不宜采摘;变色期番茄果实开始泛橘红色,表皮呈绿橘红3色渐变态,将变色期列为转色期,适用于长途运输中自然放熟;红熟前期和红熟中期的番茄果实,表皮呈红色为主,橘色为辅,少数绿色,将红熟前期、中期列为转熟期,该时期采摘适用于短途运输销售;红熟后期的番茄果实,表皮呈完全红色,因此列为完熟期,该时期采摘适用于就近市场销售。综上,将番茄成熟度等级分为未熟期、转色期、转熟期,完熟期。采集图像中的番茄所处环境包括自然光照、果实堆叠、枝叶遮挡、多种成熟度混合等多种因素,共采集到766幅番茄图像,其中,成熟番茄209颗、转熟番茄724颗、转色番茄652颗、未熟番茄623颗,共2 208颗。

图1 不同成熟期番茄图像

Fig.1 Photos of tomatoes at different maturity stages

1.2 数据集构建

通过采用随机图像缩放和旋转,镜像平移,对比度和亮度变化,添加不同范围和大小的噪声,如图2所示,增加训练样本多样性,最终图像扩增至3 064幅,按比例8∶1∶1划分为训练集、验证集和测试集。运用图像标注工具“Make Sense”(https:∥www.makesense.ai/)对番茄图像进行手动标注。Make Sense是一种在线图像标注工具,不用部署或环境配置,更加轻量化和清晰化,标注界面如图3所示。不同于常见的Labelme工具,Make Sense工具标注完毕的番茄图像信息可以直接导出为YOLO算法需要的txt格式文件,高效便捷。为了保证标注准确有效,超过三分之二被遮挡的番茄不予以标注。番茄标注为番茄成熟颜色。

图2 数据增强形式

Fig.2 Data enhancement form

图3 Make Sense标注界面

Fig.3 Make Sense annotation interface

2 改进YOLO v5s番茄成熟度检测模型

YOLO v5s网络结构简洁,采用Anchor-Based机制适用于密集排列目标的检测,且模型复杂度相对低,平衡模型性能与速度,可满足目标检测准确性和实时性要求,已成为农业领域应用最广泛的算法[19]。农业检测领域通常将算法部署在AI边缘设备,如英伟达Jetson和谷歌Coral,受限于自身体积、芯片功耗等影响因素,AI边缘设备算力和存储有限,除了与模型参数量、计算量和模型内存占用量有关,对模型架构也有要求[22]。YOLO v8和YOLO v10较于早期版本引入更多的复杂结构和模块,如深度卷积层、特征融合模块、动态注意力机制等,这些架构增强了检测精度,同时显著增加了AI边缘设备负载压力。而YOLO v5发展至今,大量研究人员进行了适配性研究,与之兼容的软硬件资源丰富,适合部署在移动端,是一款趋于成熟的目标检测算法。

为了有效解决复杂环境下番茄果实堆叠、枝叶遮挡问题,对YOLO v5s模型进行改进。为大幅减小模型参数量和计算量,并保证较高检测精度和检测速度,首先将YOLO v5s的主干特征提取网络替换为更轻量化的MobileNetV3网络,保留原有的SPPF金字塔池化。为了保证检测性能,引入轻量级的CA注意力机制,并分别以不同的形式加入到主干网络和颈部网络,以提高对相邻果实成熟度的检测能力。使用新的特征融合网络BiFPN代替PANet网络,提高对不同尺度目标检测能力。最后,使用GSConv卷积模块再次减小模型尺寸,兼顾了模型轻量化和精准度。改进模型YOLO v5s-MCA结构如图4所示。

图4 YOLO v5s-MCA网络结构图

Fig.4 YOLO v5s-MCA network structure

2.1 MobileNetV3网络

MobileNetV3网络是一种轻量级神经网络模型[23],由深度可分离卷积和反向残差结构构成,与传统卷积神经网络相比,MobileNet大幅减少了模型参数量和计算量。MobileNetV3网络大量使用1×1和3×3的卷积代替原来的5×5卷积,显著降低了参数量。这样不仅保留了高维特征空间,也减少了反向传播延迟。此外,MobileNetV3在前代网络的基础上加入残差块和轻量级的SE注意力机制,并将其设计为瓶颈结构,便于提取特征。其网络结构如图5所示,瓶颈结构如图6所示。通过在YOLO v5s模型中添加不同的轻量级网络进行性能对比试验,结果见表1;并对不同轻量级网络以注意力层形式添加CA注意力机制进行轻量化效果对比,结果见表2。可以发现,GhostNet网络平均精度均值略高于MobileNetV3网络,但在后续添加CA注意力机制的轻量化对比中表现欠缺;CA注意力机制只在MobileNetV3网络上体现出轻量化特性,其他轻量级网络加入CA注意力机制后,模型参数量和计算量均有提升。分析原因是CA注意力机制能够将坐标信息嵌入MobileNetV3网络的逆残差模块的通道,然后生成坐标注意力,这一过程不产生冗余计算,能大幅减少模型参数量和计算量。

表1 轻量级网络性能对比

Tab.1 Performance comparison of lightweight networks

模型参数量浮点计算量模型内存占用量/MB精准度/%召回率/%平均精度均值/%YOLOv5sShuffleNetV28.50×1051.90×1091.9187.774.982.2YOLOv5sEfficientNetV25.59×1065.60×10910.9082.981.584.2YOLOv5sGhostNet5.09×1061.06×101010.0089.174.585.7YOLOv5sMobileNetV35.25×1069.20×101010.4078.778.785.2

表2 不同网络添加CA的轻量化对比

Tab.2 Lightweight comparison of different networks with addition of CA

模型参数量浮点计算量YOLOv5sShuffleNetV2CA4.02×1068.40×109YOLOv5sEfficientNetV2CA5.81×1065.80×109YOLOv5sGhostNetCA5.10×1061.06×1010YOLOv5sMobileNetV3CA3.55×1066.10×109

图5 MobileNetV3网络结构图

Fig.5 Network structure of MobileNetV3

图6 MobileNetV3中瓶颈结构图

Fig.6 Bottleneck structure in MobileNetV3

2.2 CA注意力机制

YOLO v5s模型在特征提取时对目标信息的捕捉能力较弱,并且会将枝叶误检为未成熟番茄。为解决这一问题,在YOLO v5s模型中引入CA注意力机制[24],以提高番茄成熟度的检测效果。CA注意力机制通过将位置信息嵌入通道注意力,使轻量级网络在更大区域内有效关注,同时降低计算开销。CA注意力机制将通道注意力分解为两个并行的一维特征编码过程,将空间坐标信息整合到注意力图中。这两个特征图分别编码为两个注意力图,捕获输入特征图在一个空间方向的长程依赖,从而保留位置信息。然后,这两个注意力图增强输入特征图表示能力,旨在提高对检测目标特征提取能力,减少漏检和误检,同时保持输入与输出之间的关系,以准确捕捉不同层次纹理和轮廓信息。其结构如图7所示,其中CHW表示特征图通道数、高和宽,r表示通道下采样率。通过嵌入坐标信息,模型能够更好地理解输入数据位置信息,从而提升任务表现。

图7 CA注意力机制结构图

Fig.7 Structure diagram of CA attention mechanism

CA注意力机制将坐标信息嵌入MobileNetV3网络逆残差模块的通道,然后生成坐标注意力,逆残差模块添加CA注意力如图8所示。以两种形式添加CA注意力机制,其中以CABottleneck形式嵌入C3模块,形成C3_CA模块,减少原来C3模块重复卷积过程,加上CA注意力机制避免了在每个进行复杂的加权计算,使模型计算量大幅降低。

图8 逆残差模块添加CA注意力机制

Fig.8 Inverted residual block adding CA attention

2.3 加权双向特征金字塔网络BiFPN

YOLO v5s模型采用PANet[25]作为特征融合网络,相比特征金字塔网络(FPN)[26],PANet增加了一条自下而上的通路,有效解决了FPN中浅层特征信息丢失的问题。然而,在处理遮挡严重且果实堆叠的番茄时,PANet在细节特征捕捉上仍存在不足。因此,引入加权双向特征金字塔网络(BiFPN),减少采样过程对图像特征信息丢失,从而减少误检和漏检。BiFPN通过跳跃连接增强不同层级特征图信息传递,提高了模型对远处番茄的关注能力[27]。此外,BiFPN节点数量较PANet更少,不增加额外融合节点,从而在计算成本和模型性能之间取得更优平衡。BiFPN网络结构如图9所示,其中P3P7为节点。

图9 BiFPN网络结构图

Fig.9 BiFPN network architecture

2.4 融入GSConv卷积模块

为了进一步削减模型复杂度,使用GSConv模块替换颈部结构中的标准卷积模块。GSConv模块对输入特征图进行标准卷积下采样,并进行深度可分离卷积操作,并在通道维度进行两种卷积后特征图的拼接,利用Shuffle操作将标准卷积生成的信息渗透到深度可分离卷积的输出中,其结构如图10所示。GSConv模块将标准卷积与深度可分卷积相结合,增强了特征提取和融合能力,能够更好地捕捉图像的关键特征,更好地平衡模型精准度和效率。

图10 GSConv网络结构图

Fig.10 GSConv network structure diagram

2.5 优化损失函数和非极大值抑制

为了解决自然环境下枝叶遮挡、果实堆叠造成的误检和预测框定位不准的问题,采用Alpha-IoU损失函数结合Soft-NMS算法,通过优化检测框与预测框之间的相似度,根据给出的阈值剔除低分检测框,提升模型在自然环境中的检测效果。Alpha-IoU增加了更多惩罚项,并采用幂指数形式来表述损失函数,使其能够适应不同的边界盒回归精度。此外,Alpha-IoU引入了一个可调节的超参数α,允许根据不同的训练需求进行调整,多数情况下α取3,在训练中可保持优良表现。

为了保证检测准确性并消除重复预测框,使用Soft-NMS作为预测框过滤算法。NMS在处理时,会直接剔除IoU大于设定阈值的其他预测框。此举可能导致两种不同类型的目标因为重叠的回归框被删除,或者由于遮挡导致同类目标之一被过滤掉,进而影响检测精度。相比之下,Soft-NMS能够有效缓解这一问题。它通过对被遮挡目标的预测框应用高斯加权,从而调整其置信度,避免高置信度预测框被错误抑制,在后续迭代中,这些框有更大机会被保留,减少了重叠检测框误删现象,从而提高模型在遮挡场景下检测性能。

3 试验

3.1 试验平台与参数设置

试验平台配备英特尔酷睿i5-13600KF CPU,拥有32 GB RAM,NVIDIA RTX A2000 GPU,拥有6 GB VRAM。在Windows 11操作系统下,使用Python 3.8作为编程语言,Pytorch作为深度学习库,运行番茄果实成熟度检测的训练任务和测试。训练参数设置如下:输入图像尺寸为640像素×640像素,训练批次为200,批次大小为4,学习率为0.001,循环学习率为0.001,训练与检测的IoU阈值为0.5,关闭模型自带的Mosaic数据增强。为了试验公平性,其他基础模型都处于相同的批次和批次大小下完成训练,统一关闭模型自带的Mosaic数据增强,其余参数默认设置。此外,还进行了消融试验,以验证YOLO v5s-MCA模型的有效性。最后,将YOLO v5s-MCA模型与几种同类型目标检测网络进行比较,通过对比验证YOLO v5s-MCA模型检测性能。

3.2 评价指标

从检测精度和检测效率两方面对模型进行评估。使用精准度、召回率、平均精度均值及检测时间、模型内存占用量等指标作为评价指标。考虑到后续模型在移动端的部署,模型参数量和计算量也作为评价指标。

3.3 试验结果分析

3.3.1 消融试验

为了验证MobileNetV3主干网络、CA注意力机制、GSConv卷积、BiFPN特征融合网络以及Alpha-IoU损失函数对模型性能的提升效果,在原有YOLO v5s模型的基础上,逐步使用上述改进策略,使用自制数据集对所有添加模块的模型进行消融试验,消融结果见表3。可以看出,使用MobileNetV3网络替换后的YOLO v5s模型,模型得到一定的轻量化,由于参数量和计算量减少,模型检测能力下降导致性能表现不佳,从评价指标看均有一定程度的降低。为了弥补性能缺失,引入CA注意力机制,该模块属于轻量级注意力机制,添加后的模型尺寸再次得到减小,并且性能上较YOLO v5s-MobileNetV3模型有所回升。在此基础上进一步探索模型内存占用量和性能的平衡点,使用计算成本更低的卷积模块GSConv,测试发现参数量和计算量轻微减少,性能表现上再次提升。使用BiFPN网络代替原来的Concat操作,BiFPN网络的内部包含上采样、下采样和特征融合,导致参数量和计算量出现轻微涨幅,检测性能上也有对应,平均精度均值实现提升。最后,将CA注意力机制与C3模块融合,替换原始C3模块中的Bottleneck层,这一改进策略大幅减少模型参数量和计算量,通过测试发现性能表现稳定,于是考虑结合新的损失函数Alpha-IoU测试其性能,最终试验发现加入新的损失函数后,模型综合性能达到最佳,参数量和计算量大幅降低,评级指标表现为最优。

表3 YOLO v5s-MCA模型消融试验结果

Tab.3 Ablation test results of YOLO v5s-MCA model

模型参数量浮点计算量模型内存占用量/MB精准度/%召回率/%平均精度均值/%YOLOv5s7.24×1061.66×101013.7089.484.090.7YOLOv5sMobileNetV35.25×1069.20×10910.4078.778.785.2YOLOv5sMobileNetV3CA3.55×1066.10×1097.1481.880.185.5YOLOv5sMobileNetV3CAGSConv3.10×1065.60×1096.3085.379.287.2YOLOv5sMobileNetV3CAGSConvBiFPN3.22×1065.90×1096.5285.279.888.4YOLOv5sMobileNetV3CAGSConvBiFPNC3_CA2.19×1063.80×1094.5585.382.287.1YOLOv5sMobileNetV3CAGSConvBiFPNC3_CAAlphaIoU2.19×1063.80×1094.8392.889.495.1

3.3.2 不同检测模型对比试验

将YOLO v5s-MCA模型与同类型的目标检测模型在测试集上进行对比,结果见表4。可以看出,YOLO v3s模型内存占用量最大,使得其检测性能在同类基础模型中表现最优,平均精度均值达91.4%,但冗杂的体量导致其检测时间最长。其次为YOLO v7模型,检测效率相比YOLO v3s略有提升,但其模型复杂度也较高。YOLO v5s模型表现最均衡,模型内存占用量和性能表现均处于中游,存在改进空间。YOLO v5n为所有对比模型中轻量级最优的模型,但过度的轻量化会带来性能不足的问题,牺牲性能带来的轻量化不可取。YOLO v8n与YOLO v10n轻量化表现明显,检测时间也在所有对比模型中处于前列,但受限于各自网络架构的限制,在识别准确性上表现一般。改进YOLO v5s-MCA相比于其他模型有最优性能表现,网络复杂程度较低,检测效率也有所提升,综合性能最好,满足轻量化和检测速度的要求。

表4 不同检测模型性能测试结果

Tab.4 Performance of different models in test sets

模型参数量浮点计算量模型内存占用量/MB精准度/%召回率/%平均精度均值/%检测时间/msYOLOv3s6.151×1071.546×1011117.0090.584.291.458.5YOLOv5s7.24×1061.66×101013.7089.484.090.738.3YOLOv5n1.76×1064.1×1093.6890.381.690.227.9YOLOv73.762×1071.065×101171.3091.182.990.545.2YOLOv8n3.01×1068.2×1095.9678.583.785.318.9YOLOv10n2.70×1068.2×1095.4988.682.989.920.1YOLOv5sMCA2.33×1064.1×1094.8392.889.495.129.9

3.3.3 改进前后模型性能对比

使用精准度、召回率和平均精度均值对原始模型和改进模型进行评估,结果如图11所示。提出的YOLO v5s-MCA模型训练性能明显优于YOLO v5s模型,由于轻量化原因,在最初训练批次中,YOLO v5s-MCA模型性能曲线略低于YOLO v5s模型,经过一段时间的预热训练后,能够达到并超越YOLO v5s模型性能。这也证明本模型改进设计在自制数据集上具有较高的检测性能。

图11 改进前后模型性能对比

Fig.11 Comparison of model performance before and after improvement

3.3.4 不同模型检测效果对比

为了直观评价YOLO v5s-MCA与YOLO v5s的性能,将网络倒数第2层的检测结果以热力图形式输出,进行对比分析,如图12所示。由图12可知,将云图类比注意力,基础模型YOLO v5s在进行检测时,对番茄果实的特征感知能力弱、感知范围小,只有少数注意力集中在番茄果实上,导致识别数量少、识别精度差。YOLO v5s-MCA模型,改进效果显著,大部分注意力都聚焦在番茄果实上,CA注意力机制帮助YOLO v5s-MCA模型获取特征图中长距离的依赖关系,并保留准确的空间位置信息,对远处的小目标也能精准捕捉;BiFPN网络解决浅层特征信息丢失严重的问题,通过跳跃链接增加不同网络层级间的信息传递,使特征图具备更多空间坐标信息,结合Soft-NMS算法减少被遮挡目标错误抑制,提升对果实堆叠、枝叶遮挡目标识别准确率。

图12 YOLO v5s-MCA与YOLO v5s热力图对比

Fig.12 Comparison of YOLO v5s-MCA and YOLO v5s heat maps

为评价YOLO v5s-MCA模型检测结果,将YOLO v5s-MCA模型与YOLO v3s、YOLO v5s、YOLO v5n、YOLO v7、YOLO v8n及YOLO v10n模型进行番茄成熟度检测效果对比,结果如图13所示。由图13可知,YOLO v3s模型在目标检测时不能识别远处小目标,算法将部分枝叶误检为未熟番茄;YOLO v5s与YOLO v5n模型,检测效果相当,漏检情况严重,模型识别精度、置信度水平等还有提升空间;YOLO v7模型对比前几代YOLO模型,能够识别出图像中的大多数目标番茄,但对特征识别能力较差,出现检测框偏离目标的问题,难以实现对相邻番茄成熟度检测,检测时IoU阈值设置为0.5,第2幅图中所有检测框置信度均低于0.5,所以没有出现检测框,该模型不适用本数据集;尽管YOLO v8n引入动态注意力机制,但在复杂背景、遮挡严重和小目标的检测能力不足,其采用Anchor-Free结构简化了网络结构,会导致目标检测不准确;YOLO v10n网络结构优化主要聚焦在特征融合和尺度不变性上,对小目标的检测,尤其是复杂背景中小目标,容易被背景干扰导致漏检;YOLO v5s-MCA模型能够识别出远处被枝叶挡住的小目标和遮挡严重番茄果实即图中标记的目标,图中能观测到的所有番茄果实都能被准确识别,其他基础模型或多或少都存在漏检问题,分析原因是添加CA注意力机制后,YOLO v5s-MCA能够去除冗余的背景特征,聚焦番茄果实目标检测区域,使网络在更大区域内有效关注番茄果实的特征,并结合Soft-NMS算法减少被遮挡目标错误抑制现象,才能够识别遮挡严重的果实。同时,引入BiFPN网络后,增加了不同网络层级特征图之间的信息传递,减少多次采样过程中特征图信息丢失,能够帮助YOLO v5s-MCA模型关注到远处的番茄果实。综上,YOLO v5s-MCA相较于其他模型,能识别更多的目标,能够较好地识别远距离小目标,识别相邻果实成熟度效果较好,对枝叶遮挡、果实堆叠等干扰下识别效果都较好,改进模型性能优于其他模型。

图13 不同模型对比

Fig.13 Comparison of different models

4 结论

(1)提出的YOLO v5s-MCA模型使用MobileNetV3网络重构了原有的主干网络以减小模型参数量和计算量,引入轻量级的CA注意力机制以解决模型计算量减小导致识别精度降低的问题,将PANet网络替换为BiFPN网络以提升模型的识别效率及准确率,将颈部网络中的标准卷积模块改进为GSConv模块以减轻模型体积。

(2)改进YOLO v5s-MCA模型参数量为2.33×106,计算量为4.1×109,模型内存占用量为4.83 MB,相比YOLO v5s模型分别减少68%、75%和65%,轻量化效果明显。YOLO v5s-MCA平均精度均值达到95.1%,检测时间提高28.6 ms,该模型兼顾了性能和复杂度。

(3)在相同试验条件下,对比YOLO v3s、YOLO v5s、YOLO v5n、YOLO v7、YOLO v8n及YOLO v10n模型,YOLO v5s-MCA模型在番茄数据集上取得较好效果,平均精度均值分别提高3.7、4.4、4.9、4.6、9.8、5.2个百分点,证明了YOLO v5s-MCA模型在评价指标上有所提升,检测效果上也有较好效果。

参考文献

[1] 霍建勇.中国番茄产业现状及安全防范[J].蔬菜,2016(6):1-4.HUO Jianyong.Current status and safety precautions of Chinese tomato industry[J].Vegetables,2016(6):1-4.(in Chinese)

[2] BEGUM N,HAZARIKA M.Maturity detection of tomatoes using transfer learning[J].Measurement:Food,2022,7:100038.

[3] HOYE T T,ARJE J,BJERGE K,et al.Deep learning and computer vision will transform entomology[J].Proceedings of the National Academy of Sciences of the United States of America,2021,118(2):1-10.

[4] LAWAL M O.Tomato detection based on modified YOLO v3 framework[J].Scientific Reports,2021,11(1):1447.

[5] 宋怀波,尚钰莹,何东健.果实目标深度学习识别技术研究进展[J].农业机械学报,2023,54(1):1-19.SONG Huaibo,SHANG Yuying,HE Dongjian.Review on deep learning technology for fruit target recognition[J].Transactions of the Chinese Society for Agricultural Machinery,2023,54(1):1-19.(in Chinese)

[6] WANG D Z,WANG X C,CHEN Y Y,et al.Strawberry ripeness classification method in facility environment based on red color ratio of fruit rind[J].Computers and Electronics in Agriculture,2023,214:108313.

[7] MULYANI E D S,SUSANTO J P.Classification of maturity level of Fuji apple fruit with fuzzy logic method[C]∥International Conference on Cyber and IT Service Management (CITSM),2017:1-4.

[8] MAZEN F,NASHAT A A.Ripeness classification of bananas using an artificial neural network[J].Arabian Journal for Science and Engineering,2019,44(8):6901-6910.

[9] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:779-788.

[10] CHEN W B,LIU M C,ZHAO C J,et al.MTD-YOLO:multi-task deep convolutional neural network for cherry tomato fruit bunch maturity detection[J].Computers and Electronics in Agriculture,2024,216:108533.

[11] ZHENG H,WANG G H,LI X C.YOLOX-Dense-CT:a detection algorithm for cherry tomatoes based on YOLOX and DenseNet[J].Journal of Food Measurement and Characterization,2022,16(6):4788-4799.

[12] ZHANG F J,LV Z Y,ZHANG H X,et al.Verification of improved YOLOX model in detection of greenhouse crop organs:considering tomato as example[J].Computers and Electronics in Agriculture,2023,205:107582.

[13] DU X Q,MENG Z C,MA Z H,et al.Comprehensive visual information acquisition for tomato picking robot based on multitask convolutional neural network[J].Biosystems Engineering,2024,238:51-61.

[14] TIAN Y N,YANG G D,WANG Z,et al.Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J].Computers and Electronics in Agriculture,2019,157:417-426.

[15] 廖娟,刘凯旋,杨玉青,等.基于RDN-YOLO的自然环境下水稻病害识别模型研究[J].农业机械学报,2024,55(8):233-242.LIAO Juan,LIU Kaixuan,YANG Yuqing,et al.Rice disease recognition in natural environment based on RDN-YOLO[J].Transactions of the Chinese Society for Agricultural Machinery,2024,55(8):233-242.(in Chinese)

[16] 李丽,梁继元,张云峰,等.基于改进YOLO v5的复杂环境下柑橘目标精准检测与定位方法[J].农业机械学报,2024,55(8):280-290.LI Li,LIANG Jiyuan,ZHANG Yunfeng,et al.Accurate detection and localization method of citrus targets in complex environments based on improved YOLO v5[J].Transactions of the Chinese Society for Agricultural Machinery,2024,55(8):280-290.(in Chinese)

[17] LUO L F,YIN W,NING Z T,et al.In-field pose estimation of grape clusters with combined point cloud segmentation and geometric analysis[J].Computers and Electronics in Agriculture,2022,200:107197.

[18] 刘建航,何鉴恒,陈海华,等,基于改进YOLO v4和ICNet的番茄串检测模型[J].农业机械学报,2023,54(10):216-224,254.LIU Jianhang,HE Jianheng,CHEN Haihua,et al.Development of detection model for tomato clusters based on improved YOLO v4 and ICNet[J].Transactions of the Chinese Society for Agricultural Machinery,2023,54(10):216-224,254.(in Chinese)

[19] 吕强,林刚,蒋杰,等.基于改进YOLO v5s模型的自然场景中绿色柑橘果实检测[J].农业工程学报,2024,40(18):147-154.LÜ Qiang,LIN Gang,JIANG Jie,et al.Detecting green citrus fruit in natural scenes using improved YOLO v5s model[J].Transactions of the CSAE,2024,40(18):147-154.(in Chinese)

[20] 苗荣慧,李志伟,武锦龙.基于改进YOLO v7的轻量化樱桃番茄成熟度检测方法[J].农业机械学报,2023,54(10):225-233.MIAO Ronghui,LI Zhiwei,WU Jinlong.Lightweight maturity detection of cherry tomato based on improved YOLO v7[J].Transactions of the Chinese Society for Agricultural Machinery,2023,54(10):225-233.(in Chinese)

[21] 全国果品标准化技术委员会贮藏加工分技术委员会·番茄:GH/T 1193—2021[S].北京:中华全国供销合作总社,2021.

[22] 徐彦威,李军,董元方,等.YOLO系列目标检测算法综述[J].计算机科学与探索,2024,18(9):2221-2238.XU Yanwei,LI Jun,DONG Yuanfang,et al.Survey of development of YOLO object detection algorithms[J].Journal of Frontiers of Computer Science and Technology,2024,18(9):2221-2238.(in Chinese)

[23] ANDREW H,MARK S,GRACE C,et al.Searching for MobileNetV3[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV),2019:1314-1324.

[24] HOU Q B,ZHOU D Q,FENG J S.Coordinate attention for efficient mobile network design[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2016:13713-13722.

[25] LIU S,QI L,QIN H F,et al.Path aggregation network for instance segmentation[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2018:8759-8768.

[26] LIN T Y,DOLLAR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017:2117-2125.

[27] TAN M X,PANG R M,LE Q V.Efficientdet:scalable and efficient object detection[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2020:10781-10790.