基于EnlightenGAN图像增强的自然场景下苹果检测方法

宋怀波1,2 杨涵茹1,2 苏晓薇1,2 周昱宏1,2 高昕怡1,2 尚钰莹1,2 张姝瑾1,2

(1.西北农林科技大学机械与电子工程学院, 陕西杨凌 712100; 2.农业农村部农业物联网重点实验室, 陕西杨凌 712100)

摘要:自然光照下阴影会降低采摘机器人视觉系统对苹果目标的准确感知能力,导致采摘效率低。本研究采用EnlightenGAN算法进行图像增强,以实现阴影的去除和苹果目标检测精度的提升。首先通过图像光照归一化处理得到自正则化注意力图,达到图像阴影检测的目的,再采用注意力引导的U-Net作为生成器骨干网络得到增强后的图像,然后通过全局-局部判别器来比对图像信息,最终在生成器和判别器的对抗中达到图像质量增强的效果。为了进一步检验该方法的阴影去除效果,分别采用EnlightenGAN、Zero_DCE、Adaptive_GAMMA、RUAS等算法在MinneApple公共数据集上进行试验验证。结果表明,EnlightenGAN算法均方误差较Zero_DCE、Adaptive_GAMMA、RUAS算法分别降低19.21%、59.47%、67.42%,峰值信噪比增加6.26%、34.55%、47.27%,结构相似度提高2.99%、23.21%、68.29%。同时,在对果园拍摄的苹果图像进行标注后,将其送入YOLO v5m目标检测网络进行苹果检测训练。并对EnlightenGAN算法增强前后的苹果图像进行了测试,图像增强前后检测精确率分别为97.38%、98.37%,召回率分别为74.74%、91.37%,F1值分别为84%、94%,精确率、召回率和F1值分别提升1.02%、22.25%、11.90%。为证明模型有效性,对不同数据集进行了试验,结果表明EnlightenGAN算法增强后的目标检测精确率、召回率和F1值较无增强算法及Zero_DCE、Adaptive_GAMMA、RUAS算法有显著提升。由此可知,将EnlightenGAN算法应用于苹果采摘机器人的视觉系统,可以有效克服果园图像光照不均以及存在阴影的影响,提升果实目标检测性能。该研究可为自然条件下复杂光照环境中的果实检测提供借鉴。

关键词:苹果; 目标检测; 图像增强; 阴影去除; EnlightenGAN; YOLO v5m

0 引言

机器视觉系统是苹果采摘机器人的核心部件之一。在机器人视觉系统获取图像过程中,光照不均、枝叶遮挡及果实之间的相互遮挡,都可能使果实目标存在阴影,从而遗失图像丰富的细节信息。作为一种特殊的噪声,阴影可能导致部分苹果目标的检测及定位效果较差,严重影响果实采收作业的效率。结合图像增强技术,实现阴影影响下果实目标的准确检测,具有重要研究意义。

传统的果实目标检测大都基于颜色[1-2]、形状[3-5]和纹理特征[6-7]进行特征提取。但由于复杂环境下亮度变化、物体遮挡以及阴影存在,在一定程度上对颜色及其他外部特征产生了不可忽略的影响。因此,有效的阴影检测和图像增强算法在自然环境中苹果果实目标检测中有较好的应用前景,并为农业现代化提供技术支持。针对光照不均的问题,常见的传统图像增强方法包括直方图均衡化、同态滤波[8-9]、基于Retinex[10-11]的图像增强等,对于多种果实目标检测,相关学者从不同角度运用不同方式进行了去除阴影和图像增强研究[12-14]。这些方法都在特定情景下发挥了较好的作用,但对于顺光或逆光的图像存在过度增强或细节损失等问题。在自然环境下苹果目标检测的实际应用中,图像特征往往是复杂的、多样化的,因此传统算法鲁棒性较差,不具有普适性。

近年来,深度学习凭借高效率和高扩展性,在图像领域得到广泛应用,许多学者已经采用深度学习算法来进行不同场景下的阴影去除和低光图像增强,取得了较好的效果[15-17]。赵亮等[18]提出使用循环生成对抗网络进行光照补偿,使用能够自我训练参数的Switchable Normalization解决光照问题,在过暗图像的光照补偿中与Retinex算法比较,PSNR提高20.87%。吕帅朝[19]在油茶果目标检测中设计了具有跳跃连接结构且融合通道注意力机制的低照度图像增强算法,在整体增强的同时保留图像细节信息,增强后图像峰值信噪比为31.76,结构相似度为0.98,目标检测精确率和召回率分别提高6.33%、9.25%。GUO等[20]提出的Zero_DCE算法采用深度学习模型特征重建网络直接得到与原始图像特征相匹配的曲线,通过最小化对比损失函数,在图像增强的同时保持特征,增强图像峰值信噪比为16.57,结构相似度为0.59,但对输入图像质量要求高。

随着计算机视觉技术的发展,人们对图像处理中的清晰度和色彩还原度的要求持续提高,而图像增强中与低光图像配对的正常光图像的获取和界定具有一定的困难,为消除成对训练数据的依赖和过度拟合,使用从输入本身提取的信息来规范未配对训练,在此背景下,JIANG等[21]提出了一种轻量级的单路生成对抗网络(Unsupervised generative adversarial network,EnlightenGAN)。利用EnlightenGAN进行低光照图像的增强操作,能得到较高视觉质量的增强图像,该算法具有广阔的应用空间,被用于各个领域的图像增强。姚超修等[22]将改进的EnlightenGAN网络图像增强算法运用于矿井下低照度图的增强,生成的图像符合正常光照和人眼感观,图像重建质量指标NIQE为2.555,PIQE指标为29.428。张金钱[23]提出基于EnlightenGAN网络的疲劳驾驶检测算法,对昏暗环境所采集的图像进行增强处理,提高图像曝光度,准确利用分类网络对驾驶员眼部状态进行分类,检测准确率提高16.70%。

基于深度学习的图像增强算法虽然在去除阴影方面取得了较好的效果,但是仍存在一些问题[15]:监督学习所需的配对数据集难获取,计算资源需求大,不同照度图像泛化能力弱;零点学习方法下,图像增强的伪影去除、颜色保存以及非参考损失的设计有一定难度;针对光照不均匀的图像,现有方法倾向于无差别提亮整幅图像,从而导致部分区域过度曝光,影响了增强图像的视觉质量。基于上述问题,针对果园中自然环境下阴影区域苹果目标检测的难点,本文采用无监督的EnlightenGAN算法对光照不均的图像进行增强处理,去除自然光下遮挡物所形成的阴影区域,并且在增强低光区域的同时,保持正常光照区域亮度一致平衡,从而提高后续果实目标检测精确率,以达到提高苹果采摘机器人的检测定位精度,保障果实采收质量的目的。

1 数据集建立与方法

1.1 数据集建立

为验证模型的泛化能力,选取了MinneApple[24]苹果数据集(数据集1)、Varying illumination苹果数据集(数据集2)和夜间芒果数据集(数据集3)进行不同算法增强前后目标检测的结果对比。

MinneApple苹果数据集(数据集1):采用明尼苏达大学园艺研究中心在2015年6月至2016年9月期间拍摄的公共数据集MinneApple来进行试验测试,验证不同图像增强算法对实际果园图像去除阴影的性能。该数据集包括自然光照下各种环境的苹果图像,分辨率为720像素×1 280像素。在数据采集过程中,通过手持设备从不同角度朝向果树单侧来获取视频片段,并从视频序列中截取其中的2 781幅图像用于制作数据集。Varying illumination苹果数据集(数据集2):来源于网络,主要为不同图像亮度的苹果树局部图,分辨率为1 280像素×960像素。夜间芒果数据集(数据集3)[25]:该数据集主要为夜晚芒果树局部图,分辨率为500像素×500像素。

图1~3展示了不同数据集中不同环境下的果树图像。由于实际果园中环境的复杂性,采集图像时光照强度、光线方向、图像获取距离以及果实分布情况的不同,均可能影响果实目标检测效果:①光照强度的改变会使图像中果实的亮度以及目标与周围环境的对比度发生变化,进而影响果实检测。由此,数据集包括图像较亮和图像较暗2种情况,如图1a、1b,图2a、2b,图3a、3b所示。②由于数据集1是在不同角度下随机进行采集的,太阳位置变化及拍摄位置不同,导致采集的果实图像整体亮度不同,基于此特征将数据集分为顺光和逆光2种状态,如图1c、1d所示。③目标距离摄像点的远近程度也会影响采集图像中果实的外在特征,从而影响目标检测的准确性。基于这一情况,可将数据集1分为近距离拍摄以及远距离拍摄2种情况,如图1e、1f所示。④果实分布在数目上具有不均匀性,导致对采集图像中目标进行检测的复杂度不同,对果实目标检测存在不同程度的检测难度,将数据集1中采集到的图像根据果实分布密集程度分为2类,如图1g、1h所示。

图1 不同复杂环境下的果树图像(数据集1)
Fig.1 Fruit tree images in different complex environments (Dataset 1)

图2 不同图像亮度下苹果树图像(数据集2)
Fig.2 Apple tree images under different image brightness (Dataset 2)

图3 不同图像亮度下芒果树图像(数据集3)
Fig.3 Mango tree images under different image brightness (Dataset 3)

在目标检测任务中,算法准确性和鲁棒性很大程度上取决于数据质量。为得到更适用于本研究的图像数据,对数据集中的图像进行数据筛选、数据增强等预处理操作。数据集1、2、3中分别有2 781、750、1 171幅图像作为本研究的数据进行YOLO v5m[26]目标检测。训练集分别有1 840、450、735幅图像,验证集分别有524、150、196幅图像,测试集分别有417、150、240幅图像。其中训练集和验证集的图像用LabelMe标注工具进行人工标注,标注框选择果实最大外接矩形。标注后送入YOLO v5m目标检测训练。测试集的图像先送入EnlightenGAN等算法进行增强再用于YOLO v5m目标检测验证。与此同时,针对数据集中存在的各类复杂情况,按照图像典型特征进行统计整理。如表1所示。

表1 数据集详细信息
Tab.1 Dataset details

数据集影响因素拍摄条件图像数量数据集1光照强度光照角度摄像位置果实分布光照较强1560光照较弱1221顺光1473逆光1308远距离1415近距离1366果实分布稀疏1476果实分布密集1305数据集2图像亮度图像较亮412图像较暗338数据集3图像亮度图像较亮556图像较暗615

在实际果园场景中,苹果生长状态以及果树的分布位置均具有随机性和多样性,自然光照下果实检测往往面临着许多困难,摄像角度、苹果成熟度以及复杂环境中各类物质的立体遮挡和投射产生的阴影等多方面因素都会影响到最终苹果检测准确性。

如图4b、4f所示,苹果果实周围可能存在大量的树枝、叶片,其造成的遮挡可能会影响到小目标果实的检测。如图4c所示,苹果的幼果时期表面颜色与检测背景较为相似,两者不易区分,从而近景色目标检测的准确性难以保证。如图4d所示,阴影区域下苹果亮度较低,影响目标特征的提取,使得检测的果实区域与实际有偏差,容易漏检。如图4e所示,摄像时光照对于图像具有一定的干扰性,使图像出现不同程度的曝光,改变果树其他部分纹路特征,使其可能被误检为果实,从而降低检测准确性。

图4 自然光照下果实检测面临的典型问题
Fig.4 Typical problems faced by fruit detection under natural lighting

由图4可知,各类典型情况的苹果表面都存在一定程度的阴影区域,对苹果目标的特征提取有不同程度的影响,因此阴影去除和图像增强在果实目标检测领域有较强应用价值,同时对提高苹果果实的检测准确率和采摘机器人视觉系统的进一步发展具有重要意义。

1.2 试验平台

试验过程在服务器上进行,使用2个处理器,型号为Inter(R)Xeon(R)Gold 5217,CPU@3.0 GHz,存储器容量为256 GB,硬盘容量为2 TB,显卡为32 GB NVIDIA Tesla V100。深度学习框架采用PyTorch,配置库函数;编程环境为PyCharm。所有对比算法均在相同环境下运行。

1.3 研究方法

1.3.1 总体技术路线

采用的技术路线如图5所示,将复杂光照下的苹果图像送入EnlightenGAN网络进行图像增强处理,消除阴影后得到亮度均衡的增强结果图。同时用LabelMe工具标注自然环境下果园的苹果图像,送入YOLO v5m目标检测网络,拟合训练权重参数,以获得适用于自然环境下果园苹果目标检测的网络。最后将增强前后的苹果图像分别输入该网络进行果实目标检测,通过对比测试效果,验证图像增强处理在苹果目标检测中的必要性。

图5 总体技术路线图
Fig.5 Overall technical roadmap

1.3.2 EnlightenGAN网络结构

EnlightenGAN由注意力引导的U-Net生成器和全局-局部判别器组成,通过添加自正则化注意力图和自正则化感知损失模块来消除未采用成对数据监督训练产生的影响,增强图像的同时保留图像原有细节信息与特征。

该算法采用U-Net网络作为生成器,由最大池化层、上采样层、卷积块层和注意力集中模块组成。其中,卷积块层由8个卷积块组成,每块由2个3×3卷积层组成,为了减轻棋盘伪影,该网络选用1个双线性上采样层和1个卷积层来取代标准反卷积层,而最大池化层则用来过滤掉冗余信息,保留图像最强特征信号。同时,该算法采用嵌入注意力机制以检测低光照区域即图像阴影,将注意力图调整尺寸后与U-Net的中间特征图和输出图像相乘以进行重点增强,避免正常光照区域过度处理,细节特征遗失。

为实现多层次幅度增强,改善全局光线,该算法采用了全局-局部双重判别器,选择PatchGAN作为基本框架进行真/假判别,该判别器主要由输入层、卷积层、批量归一化层、激活函数、Patch-wise分类层和输出层组成。输入层用来接收输入图像或者局部图像,而卷积层使用全卷积网络提取高级图像特征,输出N×N的感受野矩阵,以考虑图像局部区域差异,统一图像级和随机裁剪局部补丁的信息。在卷积层后通过批量归一化层来加速训练过程并提高模型的稳定性,并且使用非线性激活函数LeakyReLU来提高模型的表达能力。接着,再将所获结果输入到Patch-wise分类层中,在图像的每个局部区域进行二元分类。最后,将结果送入输出层中进行整合,得到全局判别结果。

在缺乏ground truth监督的情况下,为了约束感知相似性,该算法采用限制输入低光与其增强的正常光输出之间的VGG特征距离,即自特征保留损失,与生成对抗损失一起作用于EnlightenGAN的训练[21]

1.3.3 YOLO v5m网络结构

YOLO v5是一种目标检测算法,采用基于Anchor的检测方式,属于单阶段目标检测方法。相比于其他检测网络,YOLO v5有着更快的速度和更高的精度,在农业果实检测领域有较多的应用研究与实现[27-31]

考虑到果园场景的实际应用,本文采用YOLO v5m网络进行EnlightenGAN图像增强效果测试,其模型大小适中,速度较快,精度较高,适用于采摘机器人视觉系统的实时监测。该网络结构通常可分为:Input、Backbone、Neck、Head 4部分。Input部分通过数据增强、自适应锚框计算来提升数据多样性,增强网络对不同场景的鲁棒性。Backbone则通过跨阶段连接方式融合特征,来减少参数冗余,提高模型精度。Neck采用特征金字塔网络和路径聚合网络结构相结合的方式,丰富特征信息,加强网络特征融合的能力。Head是YOLO v5的检测部分,包含损失函数和非极大值抑制,用于增加相交尺度衡量方式,解决预测框和目标框不相交的问题,去除多余预测框,提高检测精度[26]

1.4 评价指标

1.4.1 图像质量指标

图像质量评价标准通过客观实际来对图像质量进行定量分析,基于对比的思想,用处理后的图像与原始图像的误差来衡量图像处理效果[32]。本研究主要采用均方误差、峰值信噪比以及结构相似度3个指标来对不同的图像增强算法效果进行评估。

均方误差(MSE)[33]表示图像处理前后变化的差异,值越大,即处理前后图像变化幅度越大。其计算式为

(1)

式中 eMSE——均方误差

MN——图像的尺寸

f(x,y)——原图像像素值

g(x,y)——处理后图像的像素值

峰值信噪比(PSNR)[33]单位为dB。PSNR值越大,表示图像质量越好。其计算式为

(2)

式中 图像最大像素值

γPSNR——峰值信噪比

结构相似度(SSIM)[33]分别从亮度、对比度、结构3方面度量原图像与增强后图像的相似性,SSIM范围为[0,1],其值越大,表示图像质量越好。其计算式为

SSIM(X,Y)=l(X,Y)c(X,Y)s(X,Y)

(3)

其中

(4)

(5)

(6)

式中 图像XY方差

μXμY——图像XY均值

σXY——图像XY协方差

C1C2C3——任意常数

SSIM(X,Y)——XY的结构相似度

1.4.2 目标检测评价指标

选用目标检测任务的3个常见指标:精确率(P)、召回率(R)、F1值(F1 score)来衡量模型性能和目标检测效果。

2 结果与分析

2.1 模型训练

本试验训练轮数为200,训练结果如图6所示,训练初期模型学习效率较高,随着轮数的增加,图6a中的精确率、召回率、F1值曲线趋于饱和,图6b中的loss曲线趋于收敛,迭代次数基本完成后,损失值于0.111左右波动,精确率为86.11%,召回率为80.10%,F1值为83%。

图6 训练结果
Fig.6 Training results

2.2 检测结果

为了验证文中图像增强算法效果,将自然光照下存在不同阴影区域的果实图像进行测试,试验分为2部分:①EnlightenGAN与Zero_DCE、Adaptive_GAMMA、RUAS[34]算法进行增强效果比较,用于验证EnlightenGAN算法在果园目标检测中图像增强领域的应用前景和低光照图像增强任务中的优势。②将增强处理的图像送入训练后的YOLO v5m网络进行目标检测,通过图像增强前后目标检测结果的对比,进一步验证图像增强对于提升目标检测算法的性能表现。

2.2.1 图像增强结果

本文提出的EnlightenGAN模型与其他图像增强算法在MinneApple苹果数据集测试集上的对比结果如表2所示。

表2 4种图像增强算法对比结果
Tab.2 Comparison results of four image enhancement algorithms

算法MSEPSNR/dBSSIMEnlightenGAN2022.0415.110.69Zero_DCE2502.7114.220.67Adaptive_GAMMA4988.7611.230.56RUAS6205.7510.260.41

注:双下划线所示数据为最优值,下划线所示数据为次优值,下同。

图7a所示为测试图像通过各类增强算法后的MSE指标,EnlightenGAN的MSE均值最小,为2 022.04,由其箱型图的箱高可知,经过EnlightenGAN算法处理后的图像差异程度最小,数据较为集中,且无异常值,即对不同环境条件的苹果图像都有较稳定的增强效果。同时可以看出RUAS算法增强效果具有较强的随机性,处理后的图像平均差异程度最大,数据较为分散且异常值较多。图7b中EnlightenGAN算法的PSNR最大,为15.11 dB,说明经EnlightenGAN算法处理后的图像与原始图像更接近,失真程度小。图7c中EnlightenGAN算法的SSIM最大,为0.69,由此可知经过EnlightenGAN算法增强后的图像质量相较于其他几种算法处理后的结果更好,与原图结构更相似。以上试验结果结合箱型图进行分析可得,EnlightenGAN算法的图像增强质量最高。

图7 图像质量评价指标箱型图
Fig.7 Box plots of image quality evaluation indicators

2.2.2 整体目标检测结果

将数据集中的测试原图像和不同算法的增强图像送入YOLO v5m网络进行测试,在测试集中随机选取100幅结果图进行目标检测指标的统计。验证图像增强算法对目标检测精度的影响,统计结果如表3所示。

表3 3种数据集图像增强前后YOLO v5m目标检测精度对比
Tab.3 Comparison of YOLO v5m target detection accuracy before and after image enhancement in three datasets %

数据集算法PRF1值None97.3874.7484EnlightenGAN98.3791.3794数据集1Zero_DCE93.9189.1091Adaptive_GAMMA96.0478.2686RUAS96.6671.9382None95.7078.3185EnlightenGAN99.2286.7292数据集2Zero_DCE97.8379.2487Adaptive_GAMMA98.1176.8085RUAS98.0968.6180None99.0574.3184EnlightenGAN99.3388.2893数据集3Zero_DCE98.1072.3783Adaptive_GAMMA98.6781.7389RUAS10028.4343

考虑到数据集1中果园的实际情况,地上的苹果和远距离背景的苹果不处于采摘机器人的视觉平面,即不属于目标检测的范围,故在进行指标参数计算的过程中,忽略此2种情况的影响,不进行统计。

由表3可知,图像增强后的目标检测精度大体较原图有所提升,其中数据集1中的图像采用EnlightenGAN方法去除阴影进行增强后,目标果实检测精确率为98.37%,较无增强算法及Zero_DCE、Adaptive_GAMMA、RUAS算法检测精确率提升1.02%、4.75%、2.43%、1.77%,召回率为91.37%,分别增强了22.26%、2.55%、16.76%、27.03%,F1值为94%,分别提高12.90%、3.50%、10.04%、15.47%。数据集2、3中EnlightenGAN增强图像的目标果实检测精确率为99.22%、99.33%,召回率为86.72%、88.28%,F1值为92%、93%,指标参数大体都优于无增强算法及Zero_DCE、Adaptive_GAMMA、RUAS算法。分析测试结果可以得出:本研究采用EnlightenGAN算法来增强自然环境下不均匀光照的果园图像是有效的,该算法较其他算法有更好的果实目标检测精度提升效果。

针对本研究中图像增强参数和目标检测指标最优的EnlightenGAN算法,进行目标检测效果的整体可视化验证展示。本部分对数据集1中所选取的100幅图像结果进行原图和EnlightenGAN算法增强后的目标检测结果具体分析。

由图8(图中,横坐标表示测试集中随机选取的100幅图像,Original R表示原图检测的召回率,Enhanced R表示EnlightenGAN增强图像检测的召回率,Original F1表示原图检测的F1值,Enhanced F1表示EnlightenGAN增强图像检测的F1值 )条形折线图可得,条形部分表明增强后图像的召回率相较于原图都有显著提升,说明了阴影对目标检测的极大影响,而折线部分增强图像F1值普遍高于原图,综合来看,增强图像的整体检测效果在召回率和F1值都呈现优于原图的检测结果,说明了EnlightenGAN图像增强算法的有效性。由图9(图中,横坐标表示测试集中随机选取的100幅图像,ground truth表示真实苹果个数,Original TP表示原图检测正确的苹果个数,Original FN表示原图漏检的苹果个数,Original FP表示原图误检的苹果个数,Enhanced TP表示EnlightenGAN增强图像检测正确的苹果个数,Enhanced FN表示增强图像漏检的苹果个数,Enhanced FP表示增强图像误检的苹果个数)堆积条形图可得每幅图像统计指标ground truth、TP、FN、FP在增强前后的统计个数和占比情况,直观表明了图像检测指标的变化:增强后图像的正确检测苹果数量及比例有所增加,同时漏检个数及漏检率有所降低,但其误检比例部分增大,但结合3方面来看,增强图像在整体上存在优越性。

图8 目标检测指标条形-折线图(数据集1)
Fig.8 Bar line graph of object detection indicators (Dataset 1)

图9 目标检测指标堆积条形图(数据集1)
Fig.9 Stacked bar chart of object detection indicators (Dataset 1)

2.2.3 不同环境下目标检测结果

对数据集1中的100幅图像进行具体的试验分析,按照不同光照强度、不同光照角度、不同摄影位置和不同果实分布进行分类,在相同试验条件下,利用YOLO v5m来验证不同增强算法在不同环境下对目标检测效果的影响,统计结果如表4所示。

表4 不同环境下不同图像增强算法YOLO v5m目标检测精度对比
Tab.4 Comparison of YOLO v5m target detection accuracy by different image enhancement algorithms in different environments %

算法光照较强/光照较弱顺光/逆光近距离/远距离果实稀疏/果实密集PRF1值PRF1值PRF1值PRF1值None96.08/98.6979.38/70.0986/8196.40/98.3776.59/72.8885/8397.76/97.0176.34/73.1385/8297.15/97.6270.18/79.2980/87EnlightenGAN97.98/98.7693.69/89.0696/9398.11/98.6493.10/89.6595/9498.14/98.6092.86/89.8995/9498.27/98.4889.46/93.2993/96Zero_DCE92.98/94.8488.01/90.2090/9294.43/93.3987.47/90.7491/9293.50/94.3288.82/89.3991/9293.07/94.7588.51/89.7090/92Adaptive_GAMMA95.03/97.0674.93/81.5883/8894.89/97.1978.46/78.0686/8696.12/95.9677.77/78.7486/8695.92/96.1676.31/80.2185/87RUAS95.36/97.9671.12/72.7481/8396.60/96.7170.07/73.7981/8396.16/97.1674.57/69.2984/8096.26/97.0668.62/75.2479/84

由表4可得,在不同光强情况下,针对光照较强情形,EnlightenGAN增强算法处理后的精确率、召回率、F1值均最优,较次优算法提高1.98%、6.46%、5.89%,针对光照较弱情形,EnlightenGAN算法的精确率、F1值均最优,较次优的算法分别提高0.08%、1.16%,EnlightenGAN的召回率次优为89.06%,Zero_DCE的召回率最优为90.20%。在不同光照角度下,针对顺光情形,EnlightenGAN增强算法处理后的精确率、召回率、F1值均最优,较次优算法提高1.15%、1.07%、3.01%,针对逆光情形,EnlightenGAN算法的精确率、F1值均最优,较次优算法提高0.27%、1.85%,EnlightenGAN的召回率次优为89.65%,Zero_DCE的召回率最优为90.74%。在不同摄影位置下,对于近距离拍摄的图像,EnlightenGAN的精确率、召回率、F1值均最优,较次优算法提高0.40%、4.55%、4.07%,对于远距离拍摄的图像,EnlightenGAN的精确率、召回率、F1值均最优,较次优算法提高1.49%、0.56%、2.31%。在不同果实分布下,对于果实分布稀疏的图像,EnlightenGAN的精确率、召回率、F1值均最优,较次优算法提高1.15%、1.07%、3.01%,对于果实分布密集的图像,EnlightenGAN的精确率、召回率、F1值均最优,较次优算法提高0.89%、4.00%、3.98%。综合来看,在各类环境条件下,EnlightenGAN增强算法在提升果实目标检测精度上均优于原图和其他增强算法的效果。

YOLO v5m算法检测增强前后苹果图像的效果如图10所示,图中检测框上的信息分为2部分:检测类别和置信度。“apple”表示检测为苹果,数字则为检测置信度值。其检测的置信度在检测框上方显示,与原图检测结果对比,增强图像检测效果有显著提升,如图10a、10b所示,在苹果目标数量较少时,检测苹果目标的置信度有部分提升。图10c中原图的苹果目标大多处于枝叶遮挡产生的阴影中,增强图像图10d中检测到的苹果目标个数显著增多,说明将EnlightenGAN算法用于自然光照下果园果实图像增强的可行性和有效性,该方法对果实目标检测性能有较好的增强效果。

图10 YOLO v5m测试集检测结果
Fig.10 YOLO v5m test set detection results

2.2.4 不同数据集的目标检测结果

为检验EnlightenGAN增强算法在不同数据集上的有效性,选取了数据集2和数据集3进行试验,其处理方法同数据集1,即通过YOLO v5m目标检测算法测试不同增强算法处理后的图像,测试结果如表5所示。

表5 不同数据集下不同图像增强算法的YOLO v5m目标检测精度对比
Tab.5 Comparison of YOLO v5m target detection accuracy of different image enhancement algorithms in different datasets %

数据集 算法PRF1值None97.35/93.9184.36/71.7490/80EnlightenGAN98.81/99.6786.06/87.4292/93数据集2Zero_DCE96.97/98.7577.73/80.8786/88Adaptive_GAMMA96.95/99.3680.16/73.1587/83RUAS97.11/99.1462.63/75.0875/84None99.05/98.8874.31/71.8684/82EnlightenGAN99.33/10088.28/85.8593/92数据集3Zero_DCE98.10/99.7572.37/72.7683/83Adaptive_GAMMA98.67/99.2281.73/81.7889/89RUAS100/99.7528.43/33.5443/48

注:表格内数据为不同图像亮度下的各类指标结果,格式为图像较亮/图像较暗。

在数据集2、3中分别随机选取50幅较亮图像和50幅较暗图像,并将其进行不同增强算法下的YOLO v5m目标检测精度对比。由表5可知,原图中较亮的图像目标检测效果优于较暗的图像。对比图像较亮情形下的各类指标,得出数据集2、3中较亮图像经EnlightenGAN算法增强后有最优和次优的检测精确率,最高的召回率以及最好的F1值。对比图像较暗情形下的各类指标,得出数据集2、3中较暗图像经不同算法增强后的目标检测效果较原图都有一定提升。由于原图像中存在较多的阴影区域,经过图像增强处理后,图像亮度达到均衡,果实表面阴影得到有效去除,从而使果实目标更好地被检测出来。其中EnlightenGAN算法增强后的目标检测效果最佳,其精确率、召回率、F1值都高于未经过处理的原图像和经其他算法增强的图像。综合各类数据可得,对于不同数据集和不同环境情况,EnlightenGAN增强算法都有较原图和其他增强算法更好的目标检测精度。

3 讨论

为阐述EnlightenGAN的增强效果以及该算法在苹果果实检测中产生的影响,对不同光照强度、不同光照角度和不同果实分布及不同拍摄位置的图像进行试验,进而对不同算法处理后的图像质量和不同自然场景下的目标检测性能进行讨论。

3.1 不同增强算法的图像质量对比

本文在数据集1中采用的EnlightenGAN图像增强算法和其它3种算法增强图像的质量指标如表2所示。EnlightenGAN算法的图像增强结果质量最高,MSE最小,PSNR和SSIM指标参数最大,与Zero_DCE、Adaptive_GAMMA、RUAS算法相比,EnlightenGAN的MSE分别降低19.21%、59.47%和67.42%,PSNR分别提高6.26%、34.55%和47.27%,SSIM分别提高2.99%、23.21%和68.29%。

图11为数据集1中经过不同算法增强处理的苹果增强结果图,其中图11a为原图像,图11b为EnlightenGAN的图像增强结果图,对比两幅图可知,EnlightenGAN算法增强效果良好,光照均匀,符合肉眼感官,图11c为Zero_DCE算法处理后的图像,图像分辨率有所降低,有明显噪声,存在褪色的情况,增强效果不佳。图11d为Adaptive_GAMMA的苹果图像增强结果图,图像局部模糊,产生雾感,颜色对比度较低,不能够反映出目标果实的真实颜色,影响后续检测精度。图11e为RUAS算法的苹果图像增强结果图,图像曝光严重,出现了严重的颜色失真问题,对比强烈,光照不均衡。

图11 不同算法的苹果图像增强结果
Fig.11 Apple image enhancement results of different algorithms

3.2 不同环境下的检测效果分析

在不同的自然场景中,相较于原图检测结果,EnlightenGAN增强图像的目标检测效果明显提高,在部分提高苹果目标置信度的同时,增多了正确检测目标的数量,有效解决了原图像检测时产生的误检及漏检的若干问题。以下在数据集1中选取典型情况加以讨论分析。

图12a、12b分别为原图像和经过EnlightenGAN增强图像的苹果检测效果,如图12所示,顺光条件下由于环境中其他物体的遮挡,图像存在部分阴影区域,极大影响了该区域下果实目标的检测,图12c处漏检的阴影区中存在明显的苹果大目标,在经过图像增强算法处理后,如图12d所示,同一蓝色矩形框区域的苹果目标颜色特征较原图更加凸显,并均以较高的置信度被YOLO v5m目标检测网络检测出来。

图12 顺光图像目标检测结果
Fig.12 Object detection results under direct sunlight

如图13所示,图13a中,图像拍摄角度处于逆光状态,原图像整体亮度偏低,阴影区域所占比例较大,从而影响了果实目标的特征提取效果,其中蓝色矩形框区域的大量苹果目标均未被检测出来,而图13b为经过EnlightenGAN算法增强后的图像,图像的整体亮度有所提升,大部分阴影区域去除,同一蓝色矩形框位置下的多个苹果小目标均被检测出来。由此可知,经过EnlightenGAN增强算法处理后的图像,其局部小区域和整体大区域的阴影都能够被有效去除,图像局部和整体亮度达到均衡,即在不同果园环境下均能避免大部分阴影区域内苹果目标漏检。

图13 逆光图像目标检测结果
Fig.13 Object detection results in backlight images

EnlightenGAN增强还可以对枝叶遮挡条件下小目标的苹果检测起到一定作用,该算法在增强苹果表面特征的同时,增强目标与背景的对比度,使之便于区分,如图14所示,图14c处的目标难以被识别,经增强后,光照平衡,在图14b中被准确识别。

图14 枝叶遮挡目标检测结果
Fig.14 Detection results of branch and leaves occlusion targets

图像经过EnlightenGAN增强后,目标检测中的一些误检情况也能够被有效避免,如图15所示,图15c区域内多个目标聚集,不易区分,被错误地检测为一个目标。经过图像增强后图15b准确地检测出了图15d区域的所有苹果目标。

图15 多目标聚集检测结果
Fig.15 Detection results of multi-target clustering

如图16所示,图16a中由于干扰目标颜色与苹果相近且亮度较低,模型错将红绳识别为苹果目标,图像经增强处理后,其特征纹理得到加强,未被误检为目标。

图16 干扰目标检测结果
Fig.16 Detection results of interference targets

3.3 增强图像中苹果漏检和误检分析

在数据集1中经EnlightenGAN增强算法处理后的图像在目标检测模型获得较好效果,但在少数特殊情况下依旧存在漏检和误检。现对其进行讨论分析。

(1)增强算法在去除图像阴影、平衡亮度的同时,一定程度上改变了物质的表面特征,从而产生苹果漏检和叶片误检的问题。苹果幼果的颜色与树叶的颜色相近,体积相对成熟的果子较小,经EnlightenGAN亮度增强后,部分幼果的表面特征与部分叶片特征趋同,无法准确识别。如图17a所示,苹果检测模型在处理图像中的幼果时存在漏检。如图17b所示,由于收集的图像于秋天拍摄,叶片偏黄,与部分苹果颜色、形状相似,被识别为了苹果,从而造成叶片误检。

图17 漏检和误检效果
Fig.17 Effect diagrams of missed and false detections

(2)数据集中苹果树叶片繁茂,苹果检测模型对于受枝叶遮挡少的苹果的检测效果较好,对于受枝叶遮挡多的苹果,其整体将被分割为部分区域。在经过图像增强处理后,苹果目标与叶片的对比度增大,从而叶片的分割影响增强,分离的苹果部分被识别为多个目标,造成过分割。同时,当密集的碎片目标不符合苹果目标的形状特征时造成漏检。如图17c所示,苹果受树叶遮挡导致过分割,单目标被识别为多目标。如图17d所示,苹果被树叶遮挡,呈现密集碎片目标,从而导致检测时出现苹果目标漏检。

4 结论

(1)EnlightenGAN算法的图像增强结果质量最高,相较于其它算法,其MSE最小、PSNR和SSIM指标参数最大,所得结果失真程度最小,更符合人类视觉观测以及深度学习中的特征提取。可以有效地消除自然光照下果园果树图像中阴影区域对目标检测的影响。

(2)利用检测精确率、召回率和F1值对EnlightenGAN增强前后图像的YOLO v5m目标检测结果进行评估,得出图像增强前后检测精确率分别为97.38%、98.37%,召回率分别为74.74%、91.37%,F1值分别为84%、94%,精确率、召回率和F1值分别提升1.02%、22.25%、11.90%。针对不同数据集,EnlightenGAN算法增强后目标检测精确率、召回率和F1值较无增强算法、Zero_DCE、Adaptive_GAMMA、RUAS算法均有显著提升。试验结果表明,EnlightenGAN算法下苹果目标检测性能整体有所提高,说明利用EnlightenGAN算法去除苹果表面阴影的影响是有效的。

(3)该算法对自然光照的图像进行增强处理时会导致部分苹果和叶片的特征形态发生改变,从而出现误检漏检的情况。

参考文献

[1] HERNNDEZ-HERNNDEZ J, HERNNDEZ-HERNNDEZ M, FELICIANO-MORALES S, et al. Search for optimum color space for the recognition of oranges in agricultural fields[M].Cham: Springer International Publishing, 2017.

[2] 熊俊涛,邹湘军,陈丽娟,等. 基于机器视觉的自然环境中成熟荔枝识别[J]. 农业机械学报, 2011, 42(9): 162-166.
XIONG Juntao, ZOU Xiangjun, CHEN Lijuan, et al. Recognition of mature litchi in natural environment based on machine vision[J]. Transactions of the Chinese Society for Agricultural Machinery, 2011, 42(9): 162-166. (in Chinese)

[3] LIN G, TANG Y, ZOU X, et al. Fruit detection in natural environment using partial shape matching and probabilistic Hough transform[J]. Precision Agriculture, 2020, 21(1): 160-177.

[4] PENG H, SHAO Y, CHEN K, et al. Research on multi-class fruits recognition based on machine vision and SVM[J]. IFAC-PapersOnLine, 2018, 51(17): 817-821.

[5] 柳长源,赖楠旭,毕晓君. 基于深度图像的球形果实识别定位算法[J]. 农业机械学报, 2022, 53(10): 228-235.
LIU Changyuan, LAI Nanxu, BI Xiaojun. Spherical fruit recognition and location algorithm based on depth image[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(10): 228-235.(in Chinese)

[6] RAKUN J, STAJNKO D, ZAZULA D. Detecting fruits in natural scenes by using spatial-frequency based texture analysis and multiview geometry[J]. Computers and Electronics in Agriculture, 2011, 76(1): 80-88.

[7] ZHUANG J, LUO S, HOU C, et al. Detection of orchard citrus fruits using a monocular machine vision-based method for automatic fruit picking applications[J]. Computers and Electronics in Agriculture, 2018, 152: 64-73.

[8] 王阳阳,黄勋,陈浩,等. 基于同态滤波和改进K-means的苹果分级算法研究[J]. 食品与机械, 2019, 35(12): 47-51.
WANG Yangyang, HUANG Xun, CHEN Hao, et al. Research on apple classification algorithm based on homomorphic filtering and improved K-means algorithm[J]. Food &Machinery, 2019, 35(12): 47-51.(in Chinese)

[9] 徐黎明,吕继东. 基于同态滤波和K均值聚类算法的杨梅图像分割[J]. 农业工程学报, 2015, 31(14): 202-208.
XU Liming, LÜ Jidong. Bayberry image segmentation based on homomorphic filtering and K-means clustering algorithm[J]. Transactions of the CSAE, 2015, 31(14): 202-208.(in Chinese)

[10] ZHUANG J, HOU C, TANG Y, et al. Computer vision-based localisation of picking points for automatic litchi harvesting applications towards natural scenarios[J]. Biosystems Engineering, 2019, 187: 1-20.

[11] 熊俊涛,邹湘军,王红军,等. 基于Retinex图像增强的不同光照条件下的成熟荔枝识别[J]. 农业工程学报, 2013, 29(12): 170-178.
XIONG Juntao, ZOU Xiangjun, WANG Hongjun, et al. Recognition of ripe litchi in different illumination conditions based on Retinex image enhancement[J]. Transactions of the CSAE, 2013, 29(12): 170-178.(in Chinese)

[12] 宋怀波,屈卫锋,王丹丹,等. 基于光照无关图理论的苹果表面阴影去除方法[J]. 农业工程学报, 2014, 30(24): 168-176.
SONG Huaibo, QU Weifeng, WANG Dandan, et al. Shadow removal method of apples based on illumination invariant image[J]. Transactions of the CSAE, 2014, 30(24): 168-176.(in Chinese)

[13] 宋怀波,张卫园,张欣欣,等. 基于模糊集理论的苹果表面阴影去除方法[J]. 农业工程学报, 2014, 30(3): 135-141.
SONG Huaibo, ZHANG Weiyuan, ZHANG Xinxin, et al. Shadow removal method of apples based on fuzzy set theory[J]. Transactions of the CSAE, 2014, 30(3): 135-141.(in Chinese)

[14] 熊俊涛,卜榕彬,郭文韬,等. 自然光照条件下采摘机器人果实识别的表面阴影去除方法[J]. 农业工程学报, 2018, 34(22): 147-154.
XIONG Juntao, BU Rongbin, GUO Wentao, et al. Shadow removal method of fruits recognized by picking robot under natural environment[J]. Transactions of the CSAE, 2018, 34(22): 147-154.(in Chinese)

[15] LI C, GUO C, HAN L, et al. Low-light image and video enhancement using deep learning: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(12): 9396-9416.

[16] ZHANG L, ZHANG Q, XIAO C. Shadow remover: image shadow removal based on illumination recovering optimization[J]. IEEE Transactions on Image Processing, 2015, 24(11): 4623-4636.

[17] LI C, GUO J, PORIKLI F, et al. Lightennet: a convolutional neural network for weakly illuminated image enhancement[J]. Pattern Recognition Letters, 2018, 104: 15-22.

[18] 赵亮,张鸿. 基于循环生成对抗网络的光照补偿方法[J]. 计算机工程与设计, 2020, 41(9): 2566-2573.
ZHAO Liang, ZHANG Hong. Illumination compensation method based on cycle generative adversarial networks[J]. Computer Engineering and Design, 2020, 41(9): 2566-2573.(in Chinese)

[19] 吕帅朝. 基于计算机视觉与深度学习的油茶果目标检测方法研究[D]. 杨凌:西北农林科技大学, 2023.
LÜ Shuaichao. Camellia oleifera fruit detection based on computer vision and deep learning technology[D].Yangling: Northwest A&F University, 2023.(in Chinese)

[20] GUO C, LI C, GUO J, et al. Zero-reference deep curve estimation for low-light image enhancement[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020: 1777-1786.

[21] JIANG Y, GONG X, LIU D, et al. EnlightenGAN: deep light enhancement without paired supervision[J]. IEEE Transactions on Image Processing, 2021, 30: 2340-2349.

[22] 姚超修,蒋泽,胡亚磊. 基于改进EnlightenGAN的煤矿井下图像增强算法[J]. 煤炭技术, 2023, 42(9): 219-222.
YAO Chaoxiu, JIANG Ze, HU Yalei. Improved image enhancement algorithm for underground coal mine based on EnlightenGAN[J]. Coal Technology, 2023, 42(9): 219-222.(in Chinese)

[23] 张金钱. 针对夜间昏暗行车环境的疲劳驾驶检测[J]. 微处理机, 2021, 42(6): 32-36.
ZHANG Jinqian. Fatigue driving detection for dim driving environment at night[J]. Microprocessors, 2021, 42(6): 32-36.(in Chinese)

[24] HNI N, ROY P, ISLER V. Minneapple: a benchmark dataset for apple detection and segmentation[J]. IEEE Robotics and Automation Letters, 2020, 5(2): 852-858.

[25] STEIN M, BARGOTI S, UNDERWOOD J. Image based mango fruit detection, localization and yield estimation using multiple view geometry[J]. Sensors, 2016, 16(11): 1915.

[26] JOCHER G. YOLO v5 by ultralytics[EB/OL].2020.https:∥github.com/ultralytics/yolov5.

[27] WANG N, QIAN T, YANG J, et al. An enhanced YOLOV5 model for greenhouse cucumber fruit recognition based on color space features[J]. Agriculture, 2022, 12(10): 1556.

[28] 何斌,张亦博,龚健林,等. 基于改进YOLO v5的夜间温室番茄果实快速识别[J]. 农业机械学报, 2022, 53(5): 201-208.
HE Bin, ZHANG Yibo, GONG Jianlin, et al. Fast recognition of tomato fruit in greenhouse at night based on improved YOLO v5[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(5): 201-208.(in Chinese)

[29] 黄彤镔,黄河清,李震,等. 基于YOLO v5改进模型的柑橘果实识别方法[J]. 华中农业大学学报, 2022, 41(4): 170-177.
HUANG Tongbin, HUANG Heqing, LI Zhen, et al. Citrus fruit recognition method based on the improved model of YOLO v5[J]. Jorunal of Huazhong Agricultural University, 2022, 41(4): 170-177.(in Chinese)

[30] 闫彬,樊攀,王美茸,等. 基于改进YOLO v5m的采摘机器人苹果采摘方式实时识别[J]. 农业机械学报, 2022, 53(9): 28-38.
YAN Bin, FAN Pan, WANG Meirong, et al. Real-time apple picking pattern recognition for picking robot based on improved YOLO v5m[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(9): 28-38.(in Chinese)

[31] 尚钰莹,张倩如,宋怀波. 基于YOLO v5s的深度学习在自然场景苹果花朵检测中的应用[J]. 农业工程学报, 2022, 38(9): 222-229.
SHANG Yuying, ZHANG Qianru, SONG Huaibo. Application of deep learning using YOLO v5s to apple flower detection in natural scenes[J]. Transactions of the CSAE, 2022, 38(9): 222-229.(in Chinese)

[32] 赵文哲,秦世引. 图像质量评价的研究进展和若干问题的解决途径[J]. 激光与光电子学进展, 2010, 47(4): 46-54.
ZHAO Wenzhe, QIN Shiyin. Image quality assessment and some solving approaches to current issues[J]. Laser &Optoelectronics Progress, 2010, 47(4): 46-54.(in Chinese)

[33] 褚江,陈强,杨曦晨. 全参考图像质量评价综述[J]. 计算机应用研究, 2014, 31(1): 13-22.
CHU Jiang, CHEN Qiang, YANG Xichen. Review on full reference image quality assessment algorithms[J]. Application Research of Computers, 2014, 31(1): 13-22.(in Chinese)

[34] LIU R, MA L, ZHANG J, et al. Retinex-inspired unrolling with cooperative prior architecture search for low-light image enhancement[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

Application of Image Enhancement Technology Based on EnlightenGAN in Apple Detection in Natural Scenes

SONG Huaibo1,2 YANG Hanru1,2 SU Xiaowei1,2 ZHOU Yuhong1,2 GAO Xinyi1,2
SHANG Yuying1,2 ZHANG Shujin1,2
(1.College of Mechanical and Electronic Engineering, Northwest A&F University, Yangling, Shaanxi 712100, China 2.Key Laboratory of Agricultural Internet of Things, Ministry of Agriculture and Rural Affairs, Yangling, Shaanxi 712100, China)

AbstractUnder natural light conditions, the presence of shadows reduced the accurate perception ability of apple harvesting robot towards apple targets, leading to low picking efficiency. Therefore, an EnlightenGAN algorithm for image enhancement was proposed, which effectively improved the accuracy of shadow removal and apple object detection. This algorithm first obtained a self-regularized attention map through image lighting standardization to achieve image shadow detection. Next, an attention-guided U-Net was used as the backbone network of the generator to obtain the enhanced image. Then, the information before and after enhancement was compared using a global-local discriminator, and image enhancement was ultimately achieved in the confrontation between the generator and discriminator. To further evaluate the effectiveness of the proposed method, EnlightenGAN, Zero_DCE, Adaptive_GAMMA, and RUAS algorithms were tested on the publicly available MinneApple dataset. Compared with Zero_DCE, Adaptive_GAMMA, and RUAS algorithms, the MSE of EnlightenGAN algorithm was decreased by 19.21%, 59.47%, and 67.42%, respectively, while the PSNR was increased by 6.26%, 34.55%, and 47.27%, respectively. The SSIM was increased by 2.99%, 23.21%, and 68.29%, respectively. The detection P of EnlightenGAN algorithm before and after enhancement were 97.38% and 98.37%, respectively, with R of 74.74% and 91.37%. The F1 score were 84% and 94%, respectively. The precision, recall, and F1 score were improved by 1.02%, 22.25%, and 11.90%, respectively. In order to verify the effectiveness of the model, different datasets were tested, and the results showed that the target detection precision, recall and F1 score after the enhancement of the EnlightenGAN algorithm were improved compared with the non enhanced algorithm, Zero_DCE, Adaptive_GAMMA and RUAS algorithms. All results indicated that the proposed method can effectively improve the detection precision under uneven lighting conditions and provide reference for the visual system of apple harvesting robot.

Key wordsapple; object detection; image enhancement; shadow removal; EnlightenGAN; YOLO v5m

doi:10.6041/j.issn.1000-1298.2024.08.024

中图分类号:TP391.4

文献标识码:A

文章编号:1000-1298(2024)08-0266-14

OSID:

收稿日期:2024-03-24

修回日期: 2024-06-05

基金项目:国家重点研发计划项目(2019YFD1002401)

作者简介:宋怀波(1980—),男,教授,博士生导师,主要从事图像处理和模型识别研究,E-mail: songyangfeifei@163.com