Panthera unica recognition based on data expansion and ResNeSt with few samples
-
摘要:目的 红外触发相机采集的雪豹监测图像质量参差不齐,且数量有限,为了提升小样本下雪豹的识别准确率,本研究提出一种雪豹监测图像自动识别方法。方法 该方法基于具备注意力机制的ResNeSt50模型,使用祁连山国家公园的雪豹监测图像作为原始数据集,红外触发相机拍摄的非雪豹陆生野生动物图像作为扩充负样本,网络雪豹图像作为扩充正样本,生成3种数据集并依次进行对比实验,选择合适的扩充方式引导模型逐步关注到雪豹个体关键特征,使用梯度类激活热力图可视化进一步验证数据扩充后的有效性。结果 使用原始数据集+扩充负样本+扩充正样本训练的模型识别效果最好,热力图可视化显示模型正确关注到雪豹个体花纹与斑点特征,对比基于Vgg16和ResNet50的识别模型,ResNeSt50的识别效果最好,测试集识别准确率达到97.70%,精确率97.26%,召回率97.59%。结论 采用本研究提出的原始数据集+扩充负样本+扩充正样本数据扩充方法训练的模型,可以区分背景与前景,且对雪豹本身特征具有较强的判别能力,泛化能力最好。Abstract:Objective The quality of snow leopard monitoring images collected by infrared trigger cameras is uneven and the number is limited. An automatic recognition method of snow leopard monitoring images based on deep learning data expansion was proposed to improve the recognition accuracy of the snow leopard under limited samples.Method Improving the ResNeSt50 model with attention mechanism, the snow leopard monitoring images of Qilian Mountain National Park of northwestern China were used as the original dataset, the non-snow leopard terrestrial wildlife images taken by the infrared trigger camera were used as the extended negative sample, and the network snow leopard images were used as the extended positive sample. Comparative experiments were conducted in turn based on the above three datasets. The model was gradually guided to focus on the key characteristics of individual snow leopards by choosing an appropriate expansion method, and the effectiveness of the data expansion was verified by Gradient-weighted Class Activation Map.Result The model trained with the original data set+expanded negative samples+expanded positive samples had the best recognition effect. The Grad-CAM showed that the model correctly focused on the individual pattern and spot characteristics of the snow leopard. Compared with the recognition model based on Vgg16 and ResNet50, ResNeSt50 achieved the best recognition effect, the test set recognition accuracy rate reached 97.70%, the precision rate reached 97.26%, and the recall rate reached 97.59%.Conclusion The model trained by the original data set+extended negative sample+extended positive sample data expansion method proposed in this paper can distinguish the background from the foreground, and has a strong ability to discriminate the characteristics of snow leopard itself, and the generalization ability is the best.
-
Keywords:
- Panthera unica /
- monitoring image /
- few sample /
- data expansion /
- convolutional neural network
-
雪豹(Panthera unica)位于高山生态系统食物链顶端,是国家一级保护野生动物,属于濒临灭绝风险的物种,具有重要的保护和科研价值。对雪豹进行监测是其保护管理工作的重要组成部分,然而雪豹特殊的栖息环境和较高的警觉性限制了监测数据的可获得性,导致对其生态和保护的研究进展缓慢且分散、缺乏系统性[1]。利用红外触发相机技术[2]对雪豹进行图像监测是当前最有效的手段之一,通过该技术获取雪豹监测图像可以实现雪豹种群的动态监测[3]。但由于雪豹数量稀少,其监测图像也相对较少。新疆雪豹研究小组布设的36台红外相机经过2 094个照相日只采集到32张清晰的雪豹图像,平均拍摄率或捕获率只有1.53%[4]。因此有必要从大量的监测图像中识别筛选出雪豹图像,以便进行下一步的研究。然而传统的人工识别方法工作量大、效率低,借助计算机自动识别雪豹图像可以克服上述问题。
雪豹监测图像的识别本质属于图像自动分类,基于传统机器学习的图像自动分类方法包括k邻近(K-nearest neighbor,KNN)[5]、贝叶斯网络[6]、支持向量机(support vector machine,SVM)[7]等,这类方法需要人为提取图像特征,选择合适的特征较为困难,识别效果有限。基于深度学习的图像自动分类方法属于机器学习的一个分支,通常采用卷积神经网络(convolutional neural network, CNN)来实现。自从20世纪90年代,Le Cun等 [8-9]提出第一个CNN-LeNet-5以来,CNN在图像分类任务上的性能逐年提升,甚至已经超过人类水平。在动物图像识别方面,Okafor等[10]提出一种基于深层学习与视觉词汇袋的野生动物识别方法,该方法使用灰度和颜色信息以及不同的空间汇集方法来完成训练过程。向秋敏[11]采用基于视觉显著性的算法对野生动物目标区域进行自动检测,实现野生动物监测图像显著性检测。Horn等[12]在iNaturalist数据集上运用多种卷积神经网络进行动物分类,但由于iNaturalist数据集的类别多且分布不均,导致性能最优的IncResNetV2 SE模型也只获得67%的准确率。Timm等[13]首先筛选出有野生动物目标的图像,然后利用Inception V3模型进行识别。由于训练集的10个类别一共仅有2 000张图像,训练时学习的特征有限,最终仅得到75%的准确率。王柯力等[14]提出一种基于迁移学习的水产动物图像识别方法,对水产动物图像进行数据增强等预处理后,准确率达到97.4%。Willi等[15]将深度学习与人工分类相结合,使用了4种不同的相机陷阱数据集,实现了跨数据集的物种识别,准确率为88.7% ~ 92.7%,利用迁移学习的方法,减少了43%的人力成本。陈争涛等[16]提出一种基于VGGNet的牦牛(Bos mutus)识别方法,自动提取牦牛的面部信息特征,并利用两个分离的全连接层进行分类,实现了300头牦牛识别,准确率达到91.2%。赵歆等[17]使用ResNet实现了奶山羊站立、趴卧、蜷缩、进食行为的识别,识别准确率可以达到91.1%。
针对监测图像背景复杂的特征,注意力机制被引入到野生动物监测图像识别中,提高特征提取能力。程浙安[18]提出一种利用注意力机制改进的ResNet(SA-ResNet)作为基础网络架构的Faster RCNN实现野生动物的自动识别,平均准确率(mean average precision,MAP)可以达到92.2%。李安琪[19]提出一种结合SE(squeeze-and-excitation)注意力机制的ResNeXt[20]改进模型(SE-ResNeXt)用于野生动物监测图像自动识别,并利用坦桑尼亚塞伦盖蒂国家公园公开的野生动物监测图像数据集中的26个物种的监测图像进行性能验证,结果表明,SE-ResNeXt101对13个类别的识别准确率均优于ResNet-101,最大差值为31.2%。
上述文献表明,利用卷积神经网络结合注意力机制可以得到更好的识别效果。但雪豹相对其他野生动物数量较少、警觉性高,导致雪豹的监测图像数量有限,从而导致样本的多样性变低。赵凯琳等[21]提出在数据量有限的情况下,可以通过数据增强[22]来提高样本多样性。同时雪豹主要在高海拔地区(2 000 ~ 3 000 m)生活,其活动范围长年积雪、地形复杂(崎岖度大于100°),导致其监测图像中雪豹与背景相似度高,而且雪豹被抓拍时距相机距离忽远忽近,使得雪豹的特征学习较为困难,模型训练易过拟合,进而导致识别网络的准确率和泛化能力低等问题。ResNeSt[23]具有分割注意力机制,可以用于关注监测图像中的动物目标。针对上述识别中存在的问题,本研究基于ResNeSt模型构建雪豹监测图像自动识别方法,在训练中通过不同的数据扩充方式引导模型关注雪豹头部、体侧、尾部等关键特征,以提高雪豹识别方法的效果及泛化能力。
1. 研究方法
1.1 数据集分析及数据扩充方法
1.1.1 数据集获取
2016—2019年间,本项目组在祁连山国家公园,利用红外触发相机在雪豹经常出没的区域进行图像监测,监测图像均为24位RGB真彩色图像,分辨率包含4 000 × 3 000和4 608 × 2 592两种。经过初步筛选,剔除了大量重复的误触发图像,最终获得2 434张监测图像,定义包含雪豹的图像为正样本,反之为负样本,统计得到监测图像中共包括1 324张正样本、1 110张负样本。
1.1.2 数据集特征分析
数据集中的正样本鲜有如图1A所示的理想状况。监测图像通常会受到环境、雪豹行为和相机硬件的影响,存在如图1B所示的遮挡问题,如图1C、D所示的曝光过度以及雪豹颜色与背景难区分等问题。这些问题都会给图像监测中雪豹的识别带来困难。存在这些问题的正样本由于其图像中雪豹特征不明显或雪豹关键特征缺失,导致在训练过程中无法得到最优识别模型。除此之外,数据集中的负样本包含其他动物的数量并不多,主要是因其他影响因素导致的误触发图像,如图1E、F所示。直接使用此负样本进行训练容易导致模型将有动物的图像都误判为正样本,泛化能力差。
为克服上述情况带来的雪豹特征不充分的问题,通过数据扩充选择合适的正样本与负样本加入原始监测图像,基于扩充后的数据进行统一训练,减少复杂背景对动物识别的影响,提高模型训练效率与泛化能力。
1.1.3 数据扩充方法
针对原始数据集中的正样本存在雪豹特征不充分的特点,本研究从网络中搜集雪豹图像扩充正样本。选择的图像只包含雪豹,且雪豹目标占图像总面积较大,包含清晰的雪豹头部、体侧以及尾部花纹,有利于模型学习雪豹的关键外形特征,进而在训练过程中逐步关注到图像中的雪豹个体,提升区分背景与前景的能力,可以增强模型泛化能力。最终筛选了310张符合条件的雪豹图像作为正样本扩充到原始数据集。
原始数据集中负样本主要是误触发图像,重复率高,且其他动物较少,即存在非雪豹物种的特征不充分的特点。针对这一问题,本研究搜集同为红外触发相机拍摄的非雪豹陆生野生动物图像扩充负样本。选择的图像与原始正样本同样存在背景复杂,动物距镜头忽远忽近等特点,以便提升模型区分雪豹与非雪豹物种的能力。最终筛选了524张符合条件的非雪豹图像作为负样本扩充到原始数据集。
通过上述数据扩充方法,构建出的数据集图像数量如表1所示。
表 1 数据集分布情况Table 1. Dataset distribution数据集
Dataset正样本数
Number of
positive sample负样本数
Number of
negative sample原始数据集 Original dataset 1 324 1 110 扩充数据集 Extended dataset 310 524 总数据集 Whole dataset 1 634 1 634 1.2 基于ResNeSt雪豹识别模型
ResNeSt组合了ResNeXt与Inception block思想,并在1 × 1 + 3 × 3子模块中加入注意力机制与split思想,可以适应环境复杂多变下的对象识别。相比于ResNet,融合了SK注意力机制[24]的ResNeSt有更强的特征提取能力,在ImageNet可以取得81.13%的top-1准确率。
图2为ResNeSt的基本单元,每个块将特征图沿着channel维度划分为K个分支(cardinal group)和更细粒度的S个子组(split),总的特征组的个数是G = KS,(h, w, c)表示特征图的(高,宽,通道)。其中,每个组最终的输出特征图是通过输入特征图分割卷积后的加权组合确定的。
图 2 ResNeSt的基本单元(h,w,c)为输入特征图的(高,宽,通道数);Cardinal K为第K个分支;Split S为第S个子组;C为中间卷积层的特征图通道数;Concatenate代表通道拼接;Split-Attention表示分割注意力模块。(h,w,c), height, width and number of channels of the input feature graph; Cardinal K, he Kth cardinal group; Split S, the Rth split; C, number of feature graph channels in the middle convolutional layer; Concatenate, concatenate between channels; Split-Attention, split attention block.Figure 2. Basic unit of ResNeStResNeSt的每个分支中使用相同的分割注意力(Split-Attention)模块,其基本结构如图3所示。Split-Attention块借鉴了SK注意力机制的思想。
图 3 Split-Attention的具体结构Uj为Split-Attention模块中第j个输入特征;ˆUk为第k个分支的组合特征;Global pooling为全局池化层;Dense C/K为全连接层;BN为批量归一化层;ReLU为激活函数;S-Softmax为分类器;H, W, C/K表示中间特征层的高、宽、通道数。Uj, the jth input feature in Split-Attention block; ˆUk, combinatorial feature of the kth cardinal group; global pooling, global pooling layer; dense C/K, fully connected layer; BN, batch normalization layer; ReLU, activation function; R-Softmax, classifier; H, W, C/K, height, width and number of channels of middle feature layer.Figure 3. Structure of Split-Attention如图3所示,第k个分支的组合特征
ˆUk 由S个子组按元素求和融合得到:ˆUk=∑Skj=S(k−1)+1Uj,其中j∈1,2,⋯,SK;k∈1,2,⋯,K (1) 式中:
Uj 表示Split-Attention块中第j个输入特征,即图2中3 × 3卷积操作后的输出特征。S表示总子组数。K表示总分支数。k表示第k个分支。ˆUk∈RH×W×CK,其中k∈1,2,⋯,K (2) 式中:H、 W、 C/K表示中间特征层的高、宽、通道数。
将融合后的特征图通过全局平均池化得到基于通道的全局上下文信息:
skc=1H×W∑Hi=1∑Wj=1ˆUkc(i,j) (3) 式中:
skc 表示ˆUk 全局池化后1×1×C/K特征图的第c个通道值。ˆUkc(i,j) 表示ˆUk 的第c个通道中位于像素点(i, j)的值。之后将
sk 通过全连接层自适应地计算每个子组的权重:aki(c)={exp(Gci(sk))∑Rkj=0exp(Gci(sk))当S>111+exp(−Gci(sk))当S=1 (4) 式中:
aki(c) 是第i个子组的权重。Gci 是由两个全连接层加relu激活函数构成的注意力权重函数。最终每个分支的加权融合特征
Vk∈RH×W×C 由其子组特征图与子组权重的加权组合产生,第c个通道计算如下:Vkc=∑Si=1aki(c)US(k−1)+i,其中i∈1,2,⋯,S (5) 式中:
Vkc 表示每个分支第c个通道的加权融合特征。US(k−1)+i 表示第S(k−1)+i 个子组的特征图。由于野外环境背景复杂,有些监测图像具有动物目标拖影模糊、目标距镜头太远或太近等特点,要求模型特征提取能力强且模型不易过大,故采用ResNeSt50作为基准网络,将其分类层替换成2个节点的softmax层构建雪豹智能识别网络,输出为两类,即雪豹与非雪豹。
2. 实验和结果分析
2.1 实验设置
本研究的硬件平台为E5-2620 CPU,两块GTX2080Ti的工作站,软件为Windows10操作系统、python3.7编程环境、pytorch1.5.1的深度学习框架。
为了探究不同扩充方法对模型识别能力的影响,形成了表2所示的3种不同的数据集。3个数据集都按照8∶2的比例随机构建训练集和测试集。
表 2 训练使用的扩充数据集Table 2. Extended datasets for training use数据集来源 Dataset source 数据集 Dataset 训练集 Train set 测试集 Test set 原始数据集 Original dataset 数据集1 Dataset 1 训练集1 Train set 1 测试集1 Test set 1 原始数据集 + 扩充负样本 Original dataset + extended negative sample 数据集2 Dataset 2 训练集2 Train set 2 测试集2 Test set 2 原始数据集 + 扩充负样本+扩充正样本
Original dataset + extended negative sample + extended positive sample数据集3 Dataset 3 训练集3 Train set 3 测试集3 Test set 3 训练时,引入迁移学习策略,采用ImageNet预训练的模型参数作为初始参数,减小模型对样本数量的需求,同时加快训练得的收敛速度。设置迭代次数为50,学习率为0.0005,训练批次大小为16,模型输入图像大小为448 × 448,损失函数选择focalloss,其中alpha为0.4,gamma为2。
2.2 评价指标
本研究利用准确率(A)、精确率(P)和召回率(R)对模型的测试结果进行评价,定义如下:
A=TP+TNTP+TN+FN+FP×100% (6) P=TPTP+FP×100% (7) R=TPTP+FN×100% (8) 式中:TP是测试集里将正样本正确识别为正样本的数量,TN是将负样本正确识别的数量,FP是将负样本识别为正样本的数量(误判),FN是将正样本识别为负样本的数量(漏判)。
为了进一步验证本研究数据扩充对雪豹识别的有效性,使用梯度类激活热力图进行可视化,判断模型是否关注到雪豹的关键特征。
2.3 不同数据集下模型的识别结果分析
2.3.1 数据集1训练模型及其结果分析
使用训练集1的数据训练得到模型1,为了测试该模型的泛化能力,分别选择测试集1、测试集2进行测试。图4为识别准确率随迭代次数变化的曲线,最终测试集1和测试集2上的准确率分别为96.3%和88.85%。
模型1在测试集1、2上的准确率、精确率、召回率对比如表3所示。由表3可知,模型1对同数据分布的测试集1上识别效果较好,但对不同数据分布的测试集2上识别效果较差。测试集2上的召回率高、精确率低,即漏判少、误判多。
表 3 模型1在测试集1、2上的识别结果Table 3. Recognition results of test sets 1 and 2 by model 1测试集
Test set准确率
Accuracy rate/%精确率
Precision rate/%召回率
Recall rate/%测试集1 Test set 1 96.30 94.14 98.25 测试集2 Test set 2 88.85 78.39 98.25 进一步生成梯度类激活热力图,覆盖到原始图像上查看模型的关注区域。热力图中高亮区域即为模型主要关注区域。模型1在测试集1上识别的典型热力图如图5所示,对于正样本,模型可以正确关注到雪豹身体部位(图5A);对于无动物的负样本,模型可以正确关注背景环境(图5B)。
模型1在测试集2上的典型负样本的热力图如图6所示,对于有非雪豹物种的负样本,模型关注到这些物种,但却误判为正样本。这样的现象正好符合表2中计算得到的指标特征:召回率高,但是精确率和准确率却较低。模型把非雪豹的物种识别为雪豹,说明模型可以较好地区分背景与前景,但还不能较好地区分雪豹与非雪豹物种。
2.3.2 数据集2训练模型及其结果分析
使用负样本扩充后的训练集2训练得到模型2,并在测试集2、测试集3上进行测试。图7为识别准确率随迭代次数变化的曲线。最终模型2在测试集2和3上得到的准确率分别为97.29%和94.03%。
模型2在测试集2和3上的准确率、精确率、召回率对比如表4所示。由表4可知,模型2对同数据分布的测试集2的识别效果较好,但对不同数据分布的测试集3识别效果相对较差,在测试集3上也存在精确率高、召回率低的特点,即误判少、漏判多。相比于模型1,使用模型2在测试集2上减少了误判情况的发生,识别能力得到提升。
表 4 模型2对测试集2、3上的识别结果Table 4. Recognition results of test sets 2 and 3 by model 2测试集
Test set准确率
Accuracy rate/%精确率
Precision rate/%召回率
Recall rate/%测试集2 Test set 2 97.29 94.56 98.68 测试集3 Test set 3 94.03 95.32 91.06 模型2在测试集2上典型的热力图如图8所示。对于图8A所示的原始数据集中的正样本,模型可以正确关注到雪豹身体部位;对于图8B所示的有非雪豹物种的负样本,模型也可以正确区分。说明模型具备区分雪豹与非雪豹物种的能力。
模型2在测试集3上典型正样本的热力图如图9所示,对于雪豹花纹清晰复杂且与背景较为相似的正样本,模型往往会关注到背景,并漏判为负样本。说明在雪豹身体花纹特征复杂且背景噪声干扰大时,模型不能正确区分背景与前景,泛化能力不理想。
2.3.3 数据集3训练模型及其结果分析
进一步使用正样本扩充后的训练集3训练得到模型3,并在测试集3进行测试。图10为识别准确率随迭代次数变化的曲线。最终模型3在测试集3上的准确率为97.70%。
测试集3的准确率、精确率、召回率如表5所示。由表5可知,模型3对测试集3识别效果较好。相比于训练集1、2,使用训练集3训练得到的模型同时减少了漏判与误判情况的发生,说明模型3能较好地区分背景与前景、雪豹与非雪豹。
表 5 模型3在测试集3上的识别结果Table 5. Recognition results of test set 3 by model 3测试集
Test set准确率
Accuracy rate/%精确率
Precision rate/%召回率
Recall rate/%测试集3 Test set 3 97.70 97.26 97.59 图11所示为模型3在测试集3上的典型热力图。图11A中存在非雪豹物种的负样本,模型可以依据其是否具有雪豹特征进行正确分类;图11B中雪豹与背景较为相似的正样本,模型可以正确关注到雪豹身体花纹;图11C中同时含有雪豹与非雪豹的图像,模型也可以准确关注到雪豹目标,说明模型确实是通过雪豹身体花纹特征识别雪豹,具有较强的泛化能力。
2.4 不同模型的识别结果分析
为了验证本文提出的数据扩充方法的普适性,选择图像识别中常用的卷积模型Vgg16和ResNet50分别构建了识别模型,在上述3个数据集上进行训练,识别结果的对比如图12所示。其中,3_1表示用训练集3得到的模型在测试集1上的识别结果,其余以此类推。
图 12 不同模型在3个数据集上训练的识别结果1_1,模型1在测试集1上的识别结果;2_2,模型2在测试集2上的识别结果;3_3,模型3在测试集3上的识别结果;3_1,模型3在测试集1上的识别结果。1_1, recognition results of test set 1 by model 1; 2_2, recognition results of test set 2 by model 2; 3_3, recognition results of test set 3 by model 3; 3_1, recognition results of test set 1 by model 3.Figure 12. Recognition results of three datasets by different models从图12可以看出,采用数据扩充方法后,基于Vgg16、ResNet50和ResNeSt50的3种识别模型的识别准确率均得到了提升。具体比较每个模型的1_1与3_1结果可知,用训练集3得到的模型在测试集1上的识别准确率均高于用训练集1得到模型的识别准确率。由于测试集1与真实雪豹监测场景的数据分布最为接近,因此训练集3得到的模型在实际的雪豹监测任务中识别效果最好,验证了本扩充方法的有效性。此外,本文使用的ResNeSt模型在3个数据集上的识别效果均最好,说明增加注意力机制有利于提升模型的特征提取能力,进而提升识别效果。
3. 讨 论
由于红外触发相机在拍摄时位置固定,原始数据集样本重复率高,经过筛选后负样本数量过少导致正负样本不平衡,且正样本中存在雪豹特征不充分、背景特征单一的特点。直接使用此数据集训练的模型容易将雪豹与非雪豹物种以及背景特征与雪豹特征混淆,对栖息地存在其他野生动物或栖息地环境变化时的雪豹数据集进行识别时,识别的精确率(例如模型1对测试集2的精准率为78.39%)和召回率(例如模型2对测试集3的召回率为91.06%)降低,泛化能力较差。
通过3种不同数据集下训练得到3个不同模型的识别结果对比可知:扩充得到的数据集3得到的模型3的识别效果最好,既可以区分背景与前景,又对雪豹本身特征具有较强的判别能力,泛化能力最好。为了可视化对比不同模型区分正负样本的能力,将测试集3的图像分别输入模型1、2和3,输出1 000维特征向量,最后利用t-SNE算法将输出特征降维至二维,并显示得到的散点图分别如图13 ~ 15所示。图中标记为n的红点表示负样本,标记为p的蓝点表示正样本。图13中的红点与蓝点混杂在一起,说明模型1得到的特征区分性较差,因此无法有效判别正负样本。图14中仍有部分红、蓝点相互混杂,而图15中红、蓝点区分性最高,用于识别得到的效果最好。说明本研究提出的数据扩充方式可以有效提高特征的可区分性,进而提升识别效果。
4. 结 论
人工进行雪豹监测图像识别工作量大,其识别准确率容易受人员专业素养、工作状态、认真程度等因素的影响,难以达到理想情况。本研究旨在通过深度学习实现雪豹图像识别,采用基于ResNeSt50d的雪豹识别模型以及数据扩充方法,使得模型准确关注到雪豹本身头部、体侧花纹等关键特征,识别准确率达97%以上,并提升了模型泛化能力。识别速度可达0.09 s/张,远远高于人工识别速度,有助于推动雪豹监测的自动化,对雪豹的保护具有重要意义。在后续的研究中,基于本研究确立的雪豹识别方法从监测图像中自动地识别雪豹图像,逐步扩充雪豹数据集,并从中筛选各个角度下雪豹斑点与条纹清晰的高质量图像,利用这些数据训练网络模型,使得模型从图像中学习雪豹个体细粒度特征,来进行雪豹个体的识别研究。雪豹个体识别模型可以得出一个栖息地中检测到的雪豹个体数量,便于种群调查、评估保护效果、个体救护等科学保护措施。
-
图 2 ResNeSt的基本单元
(h,w,c)为输入特征图的(高,宽,通道数);Cardinal K为第K个分支;Split S为第S个子组;C为中间卷积层的特征图通道数;Concatenate代表通道拼接;Split-Attention表示分割注意力模块。(h,w,c), height, width and number of channels of the input feature graph; Cardinal K, he Kth cardinal group; Split S, the Rth split; C, number of feature graph channels in the middle convolutional layer; Concatenate, concatenate between channels; Split-Attention, split attention block.
Figure 2. Basic unit of ResNeSt
图 3 Split-Attention的具体结构
Uj为Split-Attention模块中第j个输入特征;ˆUk为第k个分支的组合特征;Global pooling为全局池化层;Dense C/K为全连接层;BN为批量归一化层;ReLU为激活函数;S-Softmax为分类器;H, W, C/K表示中间特征层的高、宽、通道数。Uj, the jth input feature in Split-Attention block; ˆUk, combinatorial feature of the kth cardinal group; global pooling, global pooling layer; dense C/K, fully connected layer; BN, batch normalization layer; ReLU, activation function; R-Softmax, classifier; H, W, C/K, height, width and number of channels of middle feature layer.
Figure 3. Structure of Split-Attention
图 12 不同模型在3个数据集上训练的识别结果
1_1,模型1在测试集1上的识别结果;2_2,模型2在测试集2上的识别结果;3_3,模型3在测试集3上的识别结果;3_1,模型3在测试集1上的识别结果。1_1, recognition results of test set 1 by model 1; 2_2, recognition results of test set 2 by model 2; 3_3, recognition results of test set 3 by model 3; 3_1, recognition results of test set 1 by model 3.
Figure 12. Recognition results of three datasets by different models
表 1 数据集分布情况
Table 1 Dataset distribution
数据集
Dataset正样本数
Number of
positive sample负样本数
Number of
negative sample原始数据集 Original dataset 1 324 1 110 扩充数据集 Extended dataset 310 524 总数据集 Whole dataset 1 634 1 634 表 2 训练使用的扩充数据集
Table 2 Extended datasets for training use
数据集来源 Dataset source 数据集 Dataset 训练集 Train set 测试集 Test set 原始数据集 Original dataset 数据集1 Dataset 1 训练集1 Train set 1 测试集1 Test set 1 原始数据集 + 扩充负样本 Original dataset + extended negative sample 数据集2 Dataset 2 训练集2 Train set 2 测试集2 Test set 2 原始数据集 + 扩充负样本+扩充正样本
Original dataset + extended negative sample + extended positive sample数据集3 Dataset 3 训练集3 Train set 3 测试集3 Test set 3 表 3 模型1在测试集1、2上的识别结果
Table 3 Recognition results of test sets 1 and 2 by model 1
测试集
Test set准确率
Accuracy rate/%精确率
Precision rate/%召回率
Recall rate/%测试集1 Test set 1 96.30 94.14 98.25 测试集2 Test set 2 88.85 78.39 98.25 表 4 模型2对测试集2、3上的识别结果
Table 4 Recognition results of test sets 2 and 3 by model 2
测试集
Test set准确率
Accuracy rate/%精确率
Precision rate/%召回率
Recall rate/%测试集2 Test set 2 97.29 94.56 98.68 测试集3 Test set 3 94.03 95.32 91.06 表 5 模型3在测试集3上的识别结果
Table 5 Recognition results of test set 3 by model 3
测试集
Test set准确率
Accuracy rate/%精确率
Precision rate/%召回率
Recall rate/%测试集3 Test set 3 97.70 97.26 97.59 -
[1] 洪洋, 张晋东, 王玉君. 雪豹生态与保护研究现状探讨[J]. 四川动物, 2020, 39(6):711−720. doi: 10.11984/j.issn.1000-7083.20190438 Hong Y, Zhang J D, Wang Y J. Progress in the ecology and conservation research on Panthera unica[J]. Sichuan Journal of Zoology, 2020, 39(6): 711−720. doi: 10.11984/j.issn.1000-7083.20190438
[2] Bracciale L, Catini A, Gentile G, et al. Delay tolerant wireless sensor network for animal monitoring: the pink iguana case[C]//Alessandro D G. Proceedings of International Conference on Applications in Electronics Pervading Industry, Environment and Society. Cham, Switzerland: Springer , 2016: 18−26.
[3] 徐峰. 新疆雪豹研究简史[J]. 人与生物圈, 2020(增刊 1):77−79. Xu F. A brief history of snow leopard in Xinjiang[J]. Man & Biosphere, 2020(Suppl. 1): 77−79.
[4] 马鸣, 徐峰, 吴逸群, 等. 新疆雪豹种群密度监测方法探讨[J]. 生态与农村环境学报, 2011, 27(1):79−83. doi: 10.3969/j.issn.1673-4831.2011.01.016 Ma M, Xu F, Wu Y Q, et al. Monitoring of population density of snow leopard in Xinjiang[J]. Journal of Ecology and Rural Environment, 2011, 27(1): 79−83. doi: 10.3969/j.issn.1673-4831.2011.01.016
[5] 汪六三, 黄子良, 王儒敬. 基于近红外光谱和机器学习的大豆种皮裂纹识别研究[J]. 农业机械学报, 2021, 52(6):361−368. doi: 10.6041/j.issn.1000-1298.2021.06.038 Wang L S, Huang Z L, Wang R J. Identification of soybean seed coat crack using near infrared spectroscopy and machine learning[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(6): 361−368. doi: 10.6041/j.issn.1000-1298.2021.06.038
[6] 杨晓花, 高海云. 基于改进贝叶斯的书目自动分类算法[J]. 计算机科学, 2018, 45(8):203−207. Yang X H, Gao H Y. Improved bayesian algorithm based automatic classification method for bibliography[J]. Computer Science, 2018, 45(8): 203−207.
[7] Majdar R S, Ghassemian H. A probabilistic svm approach for hyperspectral image classification using spectral and texture features[J]. International Journal of Remote Sensing, 2017, 38(15): 4265−4284. doi: 10.1080/01431161.2017.1317941
[8] Le Cun Y, Boser B, Denker J S, et al. Handwritten digit recognition with a back-propagation network[C]// Touretzky D S. Advances in neural information processing systems. San Francisco: Morgan Kaufmann, 1990: 396−404.
[9] Le Cun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278−2324. doi: 10.1109/5.726791
[10] Okafor E, Pawara P, Karaaba F, et al. Comparative study between deep learning and bag of visual words for wild-animal recognition[C]//2016 IEEE symposium series on computational intelligence (SSCI). Athens: IEEE, 2017: 1−9.
[11] 向秋敏. 野生动物监测图像显著性检测算法及应用[D]. 北京: 北京林业大学, 2017. Xiang Q M. Saliency detection and application in wildlife monitoring images[D]. Beijing: Beijing Forestry University, 2017.
[12] Horn G V, Aodha O M, Song Y, et al. The iNaturalist species classification and detection dataset[C]// Mortensen E. 2018 IEEE/CVF conference on computer vision and pattern recognition (CVPR). Salt Lake City: Utah, 2018(3): 132−139.
[13] Timm M, Maji S, Fuller T. Large-scale ecological analyses of animals in the wild using computer vision[C]//Proceedings of the IEEE conference on computer vision and pattern recognition workshops. Salt Lake City: IEEE, 2018: 1896−1898.
[14] 王柯力, 袁红春. 基于迁移学习的水产动物图像识别方法[J]. 计算机应用, 2018, 38(5):1304−1308, 1326. Wang K L, Yuan H C. Aquatic animal image classification method based on transfer learning[J]. Journal of Computer Applications, 2018, 38(5): 1304−1308, 1326.
[15] Willi M, Pitman R T, Cardoso A W, et al. Identifying animal species in camera trap images using deep learning and citizen science[J]. Methods in Ecology and Evolution, 2019, 10(1): 80−91. doi: 10.1111/2041-210X.13099
[16] 陈争涛, 黄灿, 杨波,等. 基于迁移学习的并行卷积神经网络牦牛脸识别算法[J]. 计算机应用, 2021, 41(5):1332−1336. Chen Z T, Huang C, Yang B, et al. Parallel convolutional neural network yak face recognition algorithm based on transfer learning[J]. Computer Application, 2021, 41(5): 1332−1336.
[17] 赵歆. 基于ResNet网络的奶山羊行为识别方法研究[D]. 西安: 西北农林科技大学, 2020. Zhao X. Research on dairy goat behavior recognition method based on resnet network[D]. Xi’an: Northwest A&F University, 2020.
[18] 程浙安. 基于深度卷积神经网络的内蒙古地区陆生野生动物自动识别[D]. 北京: 北京林业大学, 2019. Cheng Z A. Automatic recognition of terrestrial wildlife in Inner Mongolia based on deep convolutional neural network[D]. Beijing: Beijing Forestry University, 2019.
[19] 李安琪. 基于卷积神经网络的野生动物监测图像自动识别方法研究[D]. 北京: 北京林业大学, 2020. Li A Q. Research on automatic recognition method of wildlife monitoring images based on convolutional neural network[D]. Beijing: Beijing Forestry University, 2020.
[20] Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]// 2017 IEEE conference on computer vision and pattern recognition (CVPR). Honolulu: IEEE, 2016: 5987−5995.
[21] 赵凯琳, 靳小龙, 王元卓. 小样本学习研究综述[J]. 软件学报, 2021, 32(2):349−369. Zhao K L, Jin X L, Wang Y Z. Survey on few-shot learning[J]. Journal of Software, 2021, 32(2): 349−369.
[22] Royle J A, Dorazio R M, Link W A. Analysis of multinomial models with unknown index using data augmentation[J]. Journal of Computational and Graphical Statistics, 2007, 16(1): 67−85. doi: 10.1198/106186007X181425
[23] Zhang H, Wu C, Zhang Z, et al. ResNeSt: split-attention networks[J/OL]. arXiv, 2020 [2021−05−25]. https://arxiv.org/abs/2004.08955.
[24] Li X, Wang W, Hu X, et al. Selective kernel networks[C]// Brendel W. 2019 IEEE/CVF conference on computer vision and pattern recognition (CVPR). Long Beach: IEEE, 2019: 510−519.
-
期刊类型引用(5)
1. 林海,高大中,张童,崔国发. 基于卷积神经网络的无人机遥感影像水鸟自动识别. 动物学杂志. 2024(03): 450-459 . 百度学术
2. 齐建东,郑尚姿,陈子仪,马鐘添. 基于ConvNeXt的北京地区红外相机野生动物图像识别改进模型构建. 林业科学. 2024(08): 33-45 . 百度学术
3. 贾一鸣,张长春,胡春鹤,张军国. 基于少样本学习的森林火灾烟雾检测方法. 北京林业大学学报. 2023(09): 137-146 . 本站查看
4. 齐建东,马鐘添,张德怀,田赟. 基于BS-ResNeXt-50的密云地区野生动物图像识别. 林业科学. 2023(08): 112-122 . 百度学术
5. 戎战磊,高雅月,陈生云,张同作. 祁连山国家公园青海片区雪豹栖息地适宜性评价. 兽类学报. 2022(05): 553-562 . 百度学术
其他类型引用(2)