高级检索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于ROI-CNN的赛罕乌拉国家级自然保护区陆生野生动物自动识别

刘文定 李安琪 张军国 谢将剑 鲍伟东

刘文定, 李安琪, 张军国, 谢将剑, 鲍伟东. 基于ROI-CNN的赛罕乌拉国家级自然保护区陆生野生动物自动识别[J]. 北京林业大学学报, 2018, 40(8): 123-131. doi: 10.13332/j.1000-1522.20180141
引用本文: 刘文定, 李安琪, 张军国, 谢将剑, 鲍伟东. 基于ROI-CNN的赛罕乌拉国家级自然保护区陆生野生动物自动识别[J]. 北京林业大学学报, 2018, 40(8): 123-131. doi: 10.13332/j.1000-1522.20180141
Liu Wending, Li Anqi, Zhang Junguo, Xie Jiangjian, Bao Weidong. Automatic identification method for terrestrial wildlife in Saihanwula National Nature Reserve in Inner Mongolia of northern China based on ROI-CNN[J]. Journal of Beijing Forestry University, 2018, 40(8): 123-131. doi: 10.13332/j.1000-1522.20180141
Citation: Liu Wending, Li Anqi, Zhang Junguo, Xie Jiangjian, Bao Weidong. Automatic identification method for terrestrial wildlife in Saihanwula National Nature Reserve in Inner Mongolia of northern China based on ROI-CNN[J]. Journal of Beijing Forestry University, 2018, 40(8): 123-131. doi: 10.13332/j.1000-1522.20180141

基于ROI-CNN的赛罕乌拉国家级自然保护区陆生野生动物自动识别

doi: 10.13332/j.1000-1522.20180141
基金项目: 

国家自然科学基金项目 31670553

详细信息
    作者简介:

    刘文定,教授。主要研究方向:林业信息处理。Email: Liu_wending@163.com  地址:100083  北京市海淀区清华东路35号北京林业大学工学院

    通讯作者:

    张军国,教授,博士生导师。主要研究方向:林业信息监测、图像处理与人工智能。Email: zhangjunguo@bjfu.edu.cn  地址:同上

  • 中图分类号: TP391.41

Automatic identification method for terrestrial wildlife in Saihanwula National Nature Reserve in Inner Mongolia of northern China based on ROI-CNN

  • 摘要: 目的利用红外自动感应相机对野生动物进行图像监测是对野生动物保护管理的有效手段,为了解决野外复杂背景环境导致的野生动物监测图像自动识别准确率低的问题,提出一种基于感兴趣区域(ROI)与卷积神经网络(CNN)的野生动物物种自动识别方法。方法以红外自动感应相机在内蒙古赛罕乌拉国家自然保护区内拍摄的马鹿、斑羚、猞猁、狍和野猪这5种国家级陆生保护动物的图像为实验样本,采用基于回归算法的目标检测方法,对监测图像中野生动物区域进行检测并分割,生成ROI图像,减少复杂背景信息对物种识别的干扰;利用裁剪、仿射变换等方式对样本数据进行扩充;构建基于全局-局部的VGG16双通道网络模型对样本图像进行训练,最后接入分类器输出物种识别结果。同时,构建了基于VGG19的双通道网络模型对样本图像进行训练,并与本研究训练结果进行比较;另外,将样本图像分别输入本研究算法与VGG16、R-CNN、Fast R-CNN算法进行训练,对比不同算法下的识别效果。结果利用本研究模型对样本图像进行训练时,测试集的平均识别精度均值MAP达到0.912,相对于VGG19结构下的训练模型和VGG16、R-CNN、Fast R-CNN,得到了更高的MAP值。结论相比于其他算法,本研究提出的物种识别模型更适合于复杂背景下的野生动物监测图像的物种识别,可以得到更高的MAP值与更优的识别效果。
  • 图  1  野生动物监测图像的常见情形

    Figure  1.  Common situations of wildlife monitoring images

    图  2  野生动物图像目标检测分割

    Figure  2.  Target detection segmentation for wildlife images

    图  3  VGG16网络架构

    注:COV3-64表示卷积核大小为3 × 3,通道数为64的卷积层;COV3-128表示卷积核大小为3 × 3,通道数为128的卷积层;COV3-256表示卷积核大小为3 × 3,通道数为256的卷积层;COV3-512表示卷积核大小为3 × 3,通道数为512的卷积层;MAXPOOL表示采用最大值池化;FC-4096表示通道数为4096的全连接层;FC-1000表示通道数为1000的全连接层;分类层采用softmax函数。

    Figure  3.  VGG16 network architecture

    Notes: COV3-64 represents a convolution layer with a convolutional kernel of 3×3 and a convolutional layer with 64 channels. COV3-128 represents a convolution layer with a convolutional kernel of 3×3 and a convolutional layer with 128 channels. COV3-256 represents a convolution layer with a convolutional kernel of 3×3 and a convolutional layer with 256 channels. COV3-512 represents a convolution layer with a convolutional kernel of 3×3 and a convolutional layer with 512 channels. MAXPOOL indicates that the maximum pool is used.FC-4096 denotes a fully connected layer with a channel number of 4096. FC-1000 denotes a fully connected layer with a channel number of 1000;the classification layer uses softmax function.

    图  4  算法流程图

    Figure  4.  Algorithm flow chart

    图  5  双通道网络模型

    Figure  5.  Dual-channel network model

    图  6  目标检测算法训练准确率

    Figure  6.  Training accuracy chart of the target detection algorithm

    图  7  损失函数值(a)和准确率(b)随迭代次数的变化

    Figure  7.  Variations of loss fuction values (a) and accuracy (b)with epoch changing

    图  8  4种模型下的5种野生动物测试准确率

    Figure  8.  Test accuracy of five kinds of wildlife under four models

    表  1  野生动物图像样本数据库

    Table  1.   Wildlife image sample database

    图像数量
    Image number
    马鹿
    Red deer
    斑羚
    Goral

    Roe deer
    猞猁
    Lynx
    野猪
    Boar
    白天
    Day time
    542 574 498 186 69
    黑夜
    Night time
    322 75 267 50 85
    总图像
    Total images
    864 649 765 236 154
    下载: 导出CSV

    表  2  网络模型训练参数

    Table  2.   Training parameters of the network model

    参数类型
    Parameter type
    批量数据
    Batch data
    优化算法
    Optimization algorithm
    初始学习率
    Initial learning rate
    迭代次数
    Epochs
    损失函数
    Loss function
    值或方法Value or method 64 随机梯度下降
    Stochastic gradient descent
    0.001 50 交叉熵函数Cross entropy function
    下载: 导出CSV

    表  3  不同物种的AP值与不同模型的MAP值

    Table  3.   AP value of different species and MAP value of varied models

    算法类别
    Algorithm class
    AP MAP(测试)
    MAP(test)
    最大MAP(验证)
    Max. MAP(validation)
    马鹿
    Red deer
    斑羚
    Goral

    Roe deer
    猞猁
    Lynx
    野猪
    Boar
    VGG19 0.87 0.82 0.82 0.83 0.81 0.83 0.87
    本研究算法Algorithm in this research 0.94 0.91 0.91 0.88 0.92 0.91 0.94
    注:AP代表平均识别精度,MAP代表平均识别精度的均值。Notes: AP is average identification precision, and MAP is mean AP.
    下载: 导出CSV

    表  4  不同算法的MAP

    Table  4.   MAP of different algorithms

    算法类别
    Algorithm class
    VGG16 R-CNN Fast R-CNN 本研究算法
    Algorithm in this research
    最大MAP(验证)
    Max.MAP(validation)
    0.672 0.803 0.895 0.931
    MAP(测试)
    MAP(test)
    0.656 0.762 0.856 0.912
    下载: 导出CSV
  • [1] Bracciale L, Catini A, Gentile G, et al. Delay tolerant wireless sensor network for animal monitoring: the pink iguana case[C]//Proceedings of international conference on applications in electronics pervading industry, environment and society. Cham: Springer, 2016: 18-26.
    [2] 陈善安, 胡春鹤, 张军国, 等.基于无线传感器网络的野生动物图像监测系统设计[J].现代制造技术与装备, 2017(3): 64-66. doi:  10.3969/j.issn.1673-5587.2017.03.030

    Chen S A, Hu C H, Zhang J G, et al. Design of wildlife image monitoring system based on wireless sensor networks[J]. Modern Manufacturing Technology and Equipment, 2017(3): 64-66. doi:  10.3969/j.issn.1673-5587.2017.03.030
    [3] Oishi Y, Matsunaga T. Automatic detection of moving wild animals in airborne remote sensing images[C]//2010 IEEE international geoscience and remote sensing symposium. Honolulu: IEEE, 2010: 517-519.
    [4] 曾陈颖.面向珍稀野生动物保护的图像监测与识别技术研究[D].北京: 北京林业大学, 2015.

    Zeng C Y. Research of image monitoring and identification oriented to rare wild animals protection[D]. Beijing: Beijing Forestry University, 2015.
    [5] Okafor E, Pawara P, Karaaba F, et al. Comparative study between deep learning and bag of visual words for wild-animal recognition[C]//2016 IEEE symposium series on computational intelligence (SSCI). Athens: IEEE, 2017: 1-9.
    [6] Villa A G, Salazar A, Vargas F. Towards automatic wild animal monitoring: identification of animal species in camera-trap images using very deep convolutional neural networks[J]. Ecological Informatics, 2017, 41: 24-32. doi:  10.1016/j.ecoinf.2017.07.004
    [7] Yu X Y, Wang J P, Kays R, et al. Automated identification of animal species in camera trap images[J]. EURASIP Journal on Image and Video Processing, 2013, 2013: 52. doi:  10.1186/1687-5281-2013-52
    [8] 李力, 林懿伦, 王飞跃, 等.平行学习—机器学习的一个新型理论框架[J].自动化学报, 2017, 43(1): 1-8. doi:  10.3969/j.issn.1003-8930.2017.01.001

    Li L, Lin Y L, Wang F Y, et al. Parallel learning: a new framework for machine learning[J]. Acta Automatica Sinica, 2017, 43(1): 1-8. doi:  10.3969/j.issn.1003-8930.2017.01.001
    [9] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of international conference on neural information processing systems. Lake Tahoe: Curran Associates Inc., 2012: 1097-1105.
    [10] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014: 23-31. doi:  10.5121/csit.2014.41000
    [11] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE conference on computer vision and pattern recognition (CVPR). Boston: IEEE, 2015: 1-9.
    [12] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE conference on computer vision and pattern recognition (CVPR). Las Vegas: IEEE, 2016: 770-778.
    [13] Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE conference on computer vision and pattern recognition. Honolulu: IEEE, 2017.
    [14] Figueroa K, Camarena-Ibarrola A, García J, et al. Fast automatic detection of wildlife in images from trap cameras[M]//Bayro-Corrochano E, Hancock E. Progress in pattern recognition, image analysis, computer vision, and applications. Cham: Springer, 2014: 940-947.
    [15] Chen G B, Han T X, He Z H, et al. Deep convolutional neural network based species recognition for wild animal monitoring[C]//Proceedings of 2014 IEEE international conference on image processing (ICIP). Paris: IEEE, 2015: 858-862.
    [16] Yang W X, Jin L W, Tao D C, et al. DropSample: a new training method to enhance deep convolutional neural networks for large-scale unconstrained handwritten Chinese character recognition[J]. Pattern Recognition, 2016, 58: 190-203. doi:  10.1016/j.patcog.2016.04.007
    [17] 王忠民, 曹洪江, 范琳.一种基于卷积神经网络深度学习的人体行为识别方法[J].计算机科学, 2016, 43(增刊2): 56-58, 87. http://d.old.wanfangdata.com.cn/Periodical/jsjkx2016z2012

    Wang Z M, Cao H J, Fan L. Method on human activity recognition based on convolutional neural networks[J]. Computer Science, 2016, 43(Suppl.2): 56-58, 87. http://d.old.wanfangdata.com.cn/Periodical/jsjkx2016z2012
    [18] 高震宇, 王安, 刘勇, 等.基于卷积神经网络的鲜茶叶智能分选系统研究[J].农业机械学报, 2017, 48(7): 53-58. http://d.old.wanfangdata.com.cn/Periodical/nyjxxb201707007

    Gao Z Y, Wang A, Liu Y, et al. Intelligent fresh-tea-leaves sorting system research based on convolution neural network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(7): 53-58. http://d.old.wanfangdata.com.cn/Periodical/nyjxxb201707007
    [19] 吴笑鑫, 高良, 闫民, 等.基于多特征融合的花卉种类识别研究[J].北京林业大学学报, 2017, 39(4): 86-93. doi:  10.13332/j.1000-1522.20160367

    Wu X X, Gao L, Yan M, et al. Flower species recognition based on fusion of multiple features[J]. Journal of Beijing Forestry University, 2017, 39(4): 86-93. doi:  10.13332/j.1000-1522.20160367
    [20] 那顺得力格尔.内蒙古赛罕乌拉国家级自然保护区陆生野生动物保护监测研究[D].北京: 北京林业大学, 2011.

    Nasendeleger. Monitoring on wildlife biodiversity at Saihanwula National Nature Reserve[D]. Beijing: Beijing Forestry University, 2011.
    [21] Russakovsky O, Deng J, Su H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. doi:  10.1007/s11263-015-0816-y
    [22] 杨国国, 鲍一丹, 刘子毅.基于图像显著性分析与卷积神经网络的茶园害虫定位与识别[J].农业工程学报, 2017, 33(6): 156-162. http://d.old.wanfangdata.com.cn/Periodical/nygcxb201706020

    Yang G G, Bao Y D, Liu Z Y. Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(6): 156-162. http://d.old.wanfangdata.com.cn/Periodical/nygcxb201706020
    [23] 谢将剑, 李文彬, 张军国, 等.基于Chirplet语图特征和深度学习的鸟类物种识别方法[J].北京林业大学学报, 2018, 40(3): 122-127. doi:  10.13332/j.1000-1522.20180008

    Xie J J, Li W B, Zhang J G, et al. Bird species recognition method based on Chirplet spectrogram feature and deep learning[J]. Journal of Beijing Forestry University, 2018, 40(3): 122-127. doi:  10.13332/j.1000-1522.20180008
    [24] Girshick R. Fast R-CNN[C]//Proceedings of IEEE international conference on computer vision (ICCV). Santiago: IEEE, 2015: 1440-1448.
  • [1] 沈剑波, 王应宽, 雷相东, 雷渊才, 汪求来, 叶金盛.  基于BP神经网络的广东省针阔混交异龄林立地质量评价 . 北京林业大学学报, 2019, 41(5): 38-47. doi: 10.13332/j.1000-1522.20190028
    [2] 江涛, 王新杰.  基于卷积神经网络的高分二号影像林分类型分类 . 北京林业大学学报, 2019, 41(9): 20-29. doi: 10.13332/j.1000-1522.20180342
    [3] 刘嘉政, 王雪峰, 王甜.  基于多特征融合和CNN模型的树种图像识别研究 . 北京林业大学学报, 2019, 41(11): 76-86. doi: 10.13332/j.1000-1522.20180366
    [4] 刘嘉政, 王雪峰, 王甜.  基于深度学习的5种树皮纹理图像识别研究 . 北京林业大学学报, 2019, 41(4): 146-154. doi: 10.13332/j.1000-1522.20180242
    [5] 胡静, 陈志泊, 杨猛, 张荣国, 崔亚稷.  基于全卷积神经网络的植物叶片分割算法 . 北京林业大学学报, 2018, 40(11): 131-136. doi: 10.13332/j.1000-1522.20180007
    [6] 谢将剑, 李文彬, 张军国, 丁长青.  基于Chirplet语图特征和深度学习的鸟类物种识别方法 . 北京林业大学学报, 2018, 40(3): 122-127. doi: 10.13332/j.1000-1522.20180008
    [7] 于慧伶, 麻峻玮, 张怡卓.  基于双路卷积神经网络的植物叶片识别模型 . 北京林业大学学报, 2018, 40(12): 132-137. doi: 10.13332/j.1000-1522.20180182
    [8] 沈洁滢, 崔国发, 刘润泽, 曲宏, 黄三祥, 吴记贵, 范雅倩.  北京松山国家级自然保护区旅游线路周边野生动物分布规律 . 北京林业大学学报, 2016, 38(7): 71-80. doi: 10.13332/j.1000-1522.20150247
    [9] 林卓, 吴承祯, 洪伟, 洪滔.  基于BP神经网络和支持向量机的杉木人工林收获模型研究 . 北京林业大学学报, 2015, 37(1): 42-54. doi: 10.13332/j.cnki.jbfu.2015.01.008
    [10] 王丽君, 淮永建, 彭月橙.  基于叶片图像多特征融合的观叶植物种类识别 . 北京林业大学学报, 2015, 37(1): 55-69. doi: 10.13332/j.cnki.jbfu.2015.01.006
    [11] 王轶夫, 孙玉军, 郭孝玉.  基于BP神经网络的马尾松立木生物量模型研究 . 北京林业大学学报, 2013, 35(2): 17-21.
    [12] 李玉强, 邢韶华, 刘生强, 罗爱东, 崔国发.  陆生野生动物通道设计方法 . 北京林业大学学报, 2013, 35(6): 137-143.
    [13] 张娟, 黄心渊.  基于图像分析的梅花品种识别研究 . 北京林业大学学报, 2012, 34(1): 96-104.
    [14] 罗茜, 王鸿斌, 张真, 孔祥波.  基于MFCC与神经网络的小蠹声音种类自动鉴别 . 北京林业大学学报, 2011, 33(5): 81-85.
    [15] 黄家荣, 高光芹, 孟宪宇, 关毓秀.  基于人工神经网络的林分直径分布预测 . 北京林业大学学报, 2010, 32(3): 21-26.
    [16] 李春艳, 华德尊, 陈丹娃, 王萍, 任佳.  人工神经网络在城市湿地生态环境质量评价中的应用 . 北京林业大学学报, 2008, 30(增刊1): 282-286.
    [17] 胡淑萍, 余新晓, 王小平, 秦永胜, 陈俊崎.  人工神经网络在流域植被类型优化中的应用 . 北京林业大学学报, 2008, 30(supp.2): 1-5.
    [18] 王兰珍, 吴丽娟, 李雪华, 赵铁珍, 周传艳, 李义良, 李生宇, 耿玉清, 方升佐, 王立海, HUALi_zhong, 张冬梅, 党文杰, 刘鹏举, 朱小龙, 薛康, 李国雷, 刘剑锋, 韦艳葵, 王旭, 任强, 段文霞, 汪杭军1, 李振基, 雷加强, 杨慧敏, 李建章, 何茜, 宋永明, 余新晓, 刘勇, 方陆明, 黎明, 尹光彩, 周亮, 杨娅, 刘勇, 朱波, 周国逸, 高岚, 韩士杰, 崔同林, 阎秀峰, 周宇飞, JIANGXi_dian, 苏晓华, 玲, 王清文, 孙向阳, 徐扬, 王春林, 虞木奎, 唐小明, 张冰玉, 沈熙环, 周国逸, 徐新文, 李吉跃, 鹿振友, 赖志华, 刘锐, 柯水发, 喻理飞, 宗文君, 程云清, HEXiu_bin, 王新杰, 国庆, 3, 周晓梅, 宋爱琴, 李丙文, 王伟宏, 李俊清, 李晓兰, , 郭蓓, 茹广欣, 齐涛, 孙阁, 陈峻崎, 陈培金, 陈实, 温亚利, 张志毅, 王建林, 蒋德明, 王旭, 张可栋, 王晓静, 周玉平, 姚永刚, 唐旭利, 长山, 刘志明, 宋湛谦, 王春林, 关少华, 陈放, 赵双荣, 杨伟伟, 闫俊华, 郑凌峰.  小波和神经网络在色木孔洞缺陷超声定量检测中的应用 . 北京林业大学学报, 2007, 29(2): 128-132.
    [19] 何亚平, 胡万良, 秦爱光, 王费新, 刘杏娥, 张洪江, 袁怀文, 毛俊娟, 邓小文, 黄荣凤, 李瑞, 杨平, 胡胜华, 周永学, 殷亚方, 白岗栓, 郑小贤, 颜绍馗, 高黎, 张莉俊, 张璧光, 魏潇潇, 吴彩燕, 王芳, 费世民, 赵天忠, 樊军锋, 罗晓芳, 王小青, 张克斌, 王兆印, 汪思龙, 刘燕, 李猛, 常旭, 杜社妮, 孙向阳, 戴思兰, 王胜华, 张岩, 崔赛华, 王晓欢, NagaoHirofumi, 乔建平, 谭学仁, 王正, 张占雄, 王海燕, 孔祥文, 范冰, 张旭, 徐嘉, 高荣孚, 李华, 江玉林, 陈放, 韩士杰, 张双保, 江泽慧, KatoHideo, 李昀, 刘云芳, 龚月桦, , 任海青, 陈秀明, 李媛良, 郭树花, 常亮, , IdoHirofumi, 杨培华, 陈宗伟, 侯喜录, 刘秀英, 李晓峰, 丁磊, 蒋俊明, 费本华, , 徐庆祥, 薛岩, 张代贵, 张桂兰, 陈学平, 李考学, , 高建社, 王晓东, , 续九如, 李雪峰, 涂代伦, 刘永红, 金鑫, 张红丽, , , 丁国权, .  Elman动态递归神经网络在树木生长预测中的应用 . 北京林业大学学报, 2007, 29(6): 99-103.
    [20] 王岩, 孙宇瑞, 冶民生, 谢响明, 何磊, 蒋佳荔, 李绍才, 张学俭, 罗菊春, 侯旭, 柳新伟, 张文娟, 张金凤, 李云成, 朱妍, 高鹏, 盖颖, 贺庆棠, 王盛萍, 李永慈, 李吉跃, 吕建雄, 申卫军, 何静, 关文彬, 张华丽, 崔保山, 孙海龙, 廖学品, 唐守正, 王文棋, 昌明, 成仿云, 冯仲科, 张志强, 康向阳, 陆佩玲, 吴玉英, 马道坤, 李小飞, 于晓南, 石碧, 杨志荣, 王军辉, 张桂莲, 蒋湘宁, 关毓秀, 吴斌, 静洁, 路婷, 张平冬, 史剑波, 何权, 孙阁, 赵广杰, 陈永国, 王尚德, 蒲俊文, 张满良, 孙晓霞, 马克明, 彭少麟, 汪燕, 赵燕东, 胡文忠, 余新晓, 刘国华, 林威, 汪西林, .  马尾松人工林直径分布神经网络模型研究 . 北京林业大学学报, 2006, 28(1): 28-31.
  • 加载中
图(8) / 表 (4)
计量
  • 文章访问数:  705
  • HTML全文浏览量:  176
  • PDF下载量:  32
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-04-21
  • 修回日期:  2018-06-21
  • 刊出日期:  2018-08-01

基于ROI-CNN的赛罕乌拉国家级自然保护区陆生野生动物自动识别

doi: 10.13332/j.1000-1522.20180141
    基金项目:

    国家自然科学基金项目 31670553

    作者简介:

    刘文定,教授。主要研究方向:林业信息处理。Email: Liu_wending@163.com  地址:100083  北京市海淀区清华东路35号北京林业大学工学院

    通讯作者: 张军国,教授,博士生导师。主要研究方向:林业信息监测、图像处理与人工智能。Email: zhangjunguo@bjfu.edu.cn  地址:同上
  • 中图分类号: TP391.41

摘要: 目的利用红外自动感应相机对野生动物进行图像监测是对野生动物保护管理的有效手段,为了解决野外复杂背景环境导致的野生动物监测图像自动识别准确率低的问题,提出一种基于感兴趣区域(ROI)与卷积神经网络(CNN)的野生动物物种自动识别方法。方法以红外自动感应相机在内蒙古赛罕乌拉国家自然保护区内拍摄的马鹿、斑羚、猞猁、狍和野猪这5种国家级陆生保护动物的图像为实验样本,采用基于回归算法的目标检测方法,对监测图像中野生动物区域进行检测并分割,生成ROI图像,减少复杂背景信息对物种识别的干扰;利用裁剪、仿射变换等方式对样本数据进行扩充;构建基于全局-局部的VGG16双通道网络模型对样本图像进行训练,最后接入分类器输出物种识别结果。同时,构建了基于VGG19的双通道网络模型对样本图像进行训练,并与本研究训练结果进行比较;另外,将样本图像分别输入本研究算法与VGG16、R-CNN、Fast R-CNN算法进行训练,对比不同算法下的识别效果。结果利用本研究模型对样本图像进行训练时,测试集的平均识别精度均值MAP达到0.912,相对于VGG19结构下的训练模型和VGG16、R-CNN、Fast R-CNN,得到了更高的MAP值。结论相比于其他算法,本研究提出的物种识别模型更适合于复杂背景下的野生动物监测图像的物种识别,可以得到更高的MAP值与更优的识别效果。

English Abstract

刘文定, 李安琪, 张军国, 谢将剑, 鲍伟东. 基于ROI-CNN的赛罕乌拉国家级自然保护区陆生野生动物自动识别[J]. 北京林业大学学报, 2018, 40(8): 123-131. doi: 10.13332/j.1000-1522.20180141
引用本文: 刘文定, 李安琪, 张军国, 谢将剑, 鲍伟东. 基于ROI-CNN的赛罕乌拉国家级自然保护区陆生野生动物自动识别[J]. 北京林业大学学报, 2018, 40(8): 123-131. doi: 10.13332/j.1000-1522.20180141
Liu Wending, Li Anqi, Zhang Junguo, Xie Jiangjian, Bao Weidong. Automatic identification method for terrestrial wildlife in Saihanwula National Nature Reserve in Inner Mongolia of northern China based on ROI-CNN[J]. Journal of Beijing Forestry University, 2018, 40(8): 123-131. doi: 10.13332/j.1000-1522.20180141
Citation: Liu Wending, Li Anqi, Zhang Junguo, Xie Jiangjian, Bao Weidong. Automatic identification method for terrestrial wildlife in Saihanwula National Nature Reserve in Inner Mongolia of northern China based on ROI-CNN[J]. Journal of Beijing Forestry University, 2018, 40(8): 123-131. doi: 10.13332/j.1000-1522.20180141
  • 我国野生动物种类繁多,分布广泛,其中国家一级保护动物约97种,二级保护动物约320种,野生动物资源已经成为我国重要的战略资源。对野生动物进行监测是野生动物保护管理工作的重要组成,利用红外自动感应相机、无线遥感等技术[1-3]对野生动物进行图像监测是当前最有效的手段之一。这种方法可以提供野生动物的种群分布、物种多样性等信息,但是存在着人工识别效率低,监测周期长的问题。因此,采用机器学习技术对野生动物图像进行自动检测与识别成为当前的研究热点。

    曾陈颖[4]提出了一种基于BP神经网络的大熊猫(Ailuropoda melanoleuca)识别方法。Okafor[5]等提出一种基于深层学习与视觉词汇袋的野生动物识别方法,该方法使用灰度、颜色信息和不同的空间汇集方法来完成训练过程。但是利用红外自动感应相机监测野生动物时,由于相机布设在野外,拍摄时易受到动物本身的行为、周围环境和气候的影响,成像条件较差,导致识别的准确率低,因此学者们开始专注于解决由复杂环境背景导致的低识别率的问题。Villa等[6]在文章中指出:图像包含的复杂背景信息对于识别的效果存在一定的影响,需要依靠准确的分割算法来提高识别准确率。Yu等[7]将动物体从待训练图像中手动提取出来,这使得其对自建数据库的识别准确率提高到82%。近些年,深度学习理论的成熟与大数据的积累,为深度学习的应用提供了实践基础[8]。在此基础上,通过应用深度学习理论构建了多种深度学习网络,并在ImageNet数据集上取得了极高的识别准确率。这些深度网络模型包括AlexNet[9]、VGG Net[10]、GoogleNet[11]、Deep Residual Net[12]和DenseNet[13]等,与此同时,这些网络模型也被用于大熊猫、长颈鹿(Giraffa camelopardalis)等野生动物[14]的图像识别。

    就目前而言,深度神经网络已在动物图像的识别上广泛应用,Chen等[15]使用自动图形切割算法分割野生动物区域,再使用深度卷积神经网络对20种野生动物进行识别,得到较好的识别精度。相比其他深度网络,近年兴起的DCNN(深度卷积神经网络)直接由数据本身得到特征和表达关系的自我学习,对图像具有极强的数据特征抽象能力,因此可以适应环境变化下的对象识别。目前,DCNN已在手写字符识别[16]、行为识别[17]以及农作物识别[18-19]等方面获得了较好的效果,但是针对红外相机监测图像的检测与识别的研究仍面临着准确率低的问题。

    针对以上问题,本研究提出一种基于目标检测与卷积神经网络(ROI-CNN)的野生动物监测图像的自动识别方法,通过基于回归算法的目标检测方法将野生动物所在区域从红外监测图像中分割出来,建立ROI图像数据库;将原始图像和ROI图像输入双通道卷积神经网络进行基于全局-局部的自动识别,最终实现高准确率的野生动物物种识别。

    • 2010—2016年间,项目组在内蒙古赛罕乌拉国家级自然保护区,利用红外感应触发相机对野生动物进行图像监测,获得了上千张野生动物监测图像,构建了野生动物监测图像数据库。监测图像均为24位RGB真彩色图像,分辨率为2 560 × 1 920。本研究从中选择了5种常见的国家级陆生保护动物[20]为研究对象,包括马鹿(Cervus elaphus)、斑羚(Naemorhedus goral)、狍(Capreolus capreolus)、猞猁(Lynx lynx)和野猪(Sus scrofa)。表 1为图像数据库中5种动物的图像数量。

      表 1  野生动物图像样本数据库

      Table 1.  Wildlife image sample database

      图像数量
      Image number
      马鹿
      Red deer
      斑羚
      Goral

      Roe deer
      猞猁
      Lynx
      野猪
      Boar
      白天
      Day time
      542 574 498 186 69
      黑夜
      Night time
      322 75 267 50 85
      总图像
      Total images
      864 649 765 236 154

      红外自动感应相机在野外捕捉到的野生动物图像鲜有如图 1a所示的理想状况,监测图像通常会受到环境、动物行为和相机硬件的影响,存在如图 1b所示的遮挡问题,如图 1cd所示的曝光以及动物颜色与背景难区分等问题,这些问题都会给图像监测中野生动物的检测与识别带来困难。

      图  1  野生动物监测图像的常见情形

      Figure 1.  Common situations of wildlife monitoring images

      除此之外,红外自动感应相机也会因其他因素影响导致误触发拍摄大量无效图像,在训练中过大的数据量会导致检测与识别的效率低下。基于以上问题,本研究提出将ROI提取技术加入到野生动物图像的检测与识别中,减少复杂背景对动物识别的影响,同时提高模型训练的效率。

    • 针对复杂背景对野生动物图像中动物的检测识别带来的影响,本研究采用一种基于回归算法的目标检测技术对图像中野生动物所在区域进行检测与分割。

      回归检测算法网络DarkNet-19由19个卷积层、5个最大值池化层构成,首先将图像尺寸修改为448×448,输入网络进行预测,网络输出为S×S×(B×5+C)的张量,其中S为划分网格数,B为网络预测边框数,C为类别个数。然后将整幅图像划分为S×S个网格(grid cell),每个网格预测B个检测边界框(bounding boxes),以及每个框的置信度(confidence),每个检测边界框包含5个参数(xywh和confidence)。(x, y)代表检测边界框的中心相对其母网格的位置,(w, h)为检测边界框的宽和高。置信度confidence计算公式如下:

      $$ {\rm{confidence}}=\operatorname{Pr}(\text { Object }) \times \mathrm{IOU} $$ (1)
      $$ \mathrm{IOU}=\frac{\operatorname{area}\left(\mathrm{BB}_{\mathrm{dt}} \cap \mathrm{BB}_{\mathrm{gt}}\right)}{\operatorname{area}\left(\mathrm{BB}_{\mathrm{dt}} \cup \mathrm{BB}_{\mathrm{gt}}\right)} $$ (2)

      式中:Pr(Object)为边界框包含目标物体的概率;IOU为检测框与标准框的交并比值;BBgt为基于训练标签的参考标准框;BBdt为检测边界框;area()表示面积。

      本文中使用的S=7,即将输入图像首先分为49个网格,每个网格预测2个检测边界框,在算法中每个框包含xywh、confindence这5个数值,此处仅做野生动物区域回归,不做物种的具体类别预测,因此C取1,最后的输出是7×7×(2×5+1)的张量。采用误差平方和作为损失函数(loss):

      $$ \begin{array}{l}{\operatorname{loss}=\lambda_{\text { coord }} \sum\limits_{i=0}^{S^{2}} \sum\limits_{j=0}^{B} I_{i j}^{\mathrm{obj}}\left[\left(x_{i}-\hat{x}_{i}\right)^{2}+\left(y_{i}-\hat{y}_{i}\right)^{2}\right]+} \\ {\lambda_{\text { coord }} \sum\limits_{i=0}^{S^{2}} \sum\limits_{j=0}^{B} I_{i j}^{\mathrm{obj}}\left[\left(\sqrt{w_{i}}-\sqrt{\hat{w}_{i}}\right)^{2}+\left(\sqrt{h_{i}}-\sqrt{h_{i}}\right)^{2}\right]}\end{array} $$ (3)

      式中:λcoord为定位误差的权重;xiyiwihi是第i个网格的位置以及宽和高;$\hat{x}_{i}, \hat{y}_{i}, \hat{w}_{i}, \hat{h}_{i}$是参考标准框的参数值。Iijobj表示第i个网格中第j个负责预测的预测值(predictor)。

      在每一张图像中,会存在很多并不包含物体的网格,这些网格的置信度为0,它们的训练梯度远大于包含物体中心的部分网格,很可能会覆盖掉它们的梯度更新,使得模型不稳定,导致网络的发散。针对这个问题,本研究给定位误差更大的权重,使λcoord=5,同时减小不包含物体中心网格的置信度误差的权重,包含物体中心网格的置信度误差则保持不变。

      按照检测得到的野生动物所在区域的坐标(包含左上角坐标[x1, y1]和右下角坐标[x2, y2])对图像(图 2a)进行切割,输出如图 2b的目标区域图像,建立ROI图像库,为下一步的野生动物的自动识别提供数据基础。为了更精确地提取目标物种的特征,本研究需要目标检测算法的准确率达到90%以上才可进行后续的模型训练。

      图  2  野生动物图像目标检测分割

      Figure 2.  Target detection segmentation for wildlife images

    • VGGNet是DCNN的典型代表,其3×3小卷积核的设计思想使得网络的参数更少,且在具有1 000个分类的大规模图像数据集ImageNet[21]的分类和定位上的适用性已得到了充分的验证,因此本研究以此为基础设计针对野生动物监测图像的识别网络。图 3为16个权重层的网络结构。

      图  3  VGG16网络架构

      Figure 3.  VGG16 network architecture

      VGGNet的输入为224×224的RGB图像,图像经过网络的处理,输出其属于每个类别的概率。VGGNet架构的核心由卷积层和池化层交替构成。其中前5部分分别由多个卷积核大小为3×3的卷积层构成,第6部分为3个全连接(fully-connected, FC)层。卷积层的主要作用是提取特征[22],即包含一组经数据驱动进行自主学习的卷积核,又称特征提取器。针对不同的特征提取密集度,卷积核用固定大小的卷积步幅与输入做卷积运算,经由激活函数变换后构成卷积特征图,代表对输入图像特征的响应。输出的特征图通常表示为:

      $$ a_{n}^{l}=f\left(\sum\limits_{\forall m}\left(a_{m}^{l-1} \times k_{m, n}^{l}\right)+b_{n}^{l}\right) $$ (4)

      式中:anl为第l层(当前层)的第n个特征图,aml-1为第(l-1)层(上一层)的第m个特征图,km, nl表示作用于2个特征图之间的卷积核,f(x)为激活函数,bnl代表偏置项。

      池化层用于特征映射和降维,本研究中采用最大值池化,对卷积特征图进行下采样后构成池化特征图,通常表示为:

      $$ a_{n}^{l}=f\left(r_{n}^{l} \times \frac{1}{s^{2}} \sum\limits_{s \times s} a_{n}^{l-1}+b_{n}^{l}\right) $$ (5)

      式中:s是选取的下采样模板,rnl为模板的权值。

      经过多层级联后,全连接层对最后一个池化层输出的特征图作矢量变换,构成特征向量输送到分类层。

    • 基于上文提到的技术与方法,提出一种基于ROI-CNN的野生动物监测图像自动识别方法,首先采用基于回归算法的目标检测技术对图像中野生动物所在的区域进行检测,实现自动的分割与裁剪,得到以动物为主体的图像集(ROI图像);提出一种双通道模型,将未经感兴趣区域提取的图像和ROI图像同时导入VGGNet进行训练,基于ImageNet数据库进行微调,最后接入分类器输出最终的识别结果。图 4为算法流程图。

      图  4  算法流程图

      Figure 4.  Algorithm flow chart

      图 5所示为构建的基于VGG16的双通道网络模型,其中包括网络通道G1与网络通道G2。将未经感兴趣区域提取的图像数据库与经感兴趣区域提取后的ROI图像数据库作为训练样本,分别输入G1与G2,以softmax作为分类器,分别输出预测概率矩阵PG1PG2

      图  5  双通道网络模型

      Figure 5.  Dual-channel network model

      $$ \boldsymbol{P}_{\mathrm{G} 1}=\left[P_{1\_1}, P_{1\_2}, P_{1\_3}, P_{1\_4}, P_{1\_5} \right] $$ (6)
      $$ \boldsymbol{P}_{\mathrm{G} 2}=\left[P_{2\_1}, P_{2\_2}, P_{2\_3}, P_{2\_4}, P_{2\_5}\right] $$ (7)

      式中:Pi_j表示网络输出的预测概率,i∈{1,2},分别对应网络通道G1与G2;j∈{1,2,3,4,5},分别对应5种被预测的物种。PG1PG2n=5的行向量,概率矩阵满足各类预测概率之和为1,即满足:

      $$ \sum\limits_{j=1}^{5} P_{i j}=1 $$ (8)

      最后通过分类概率融合将概率矩阵PG1PG2相加取平均值,得到最终的识别概率矩阵Q,并输出矩阵中概率最大值所对应的物种作为识别的结果。

      $$ Q=\frac{\boldsymbol{P}_{\mathrm{G} 1}+\boldsymbol{P}_{\mathrm{C} 2}}{2} $$ (9)
    • 本研究的硬件平台为E5-2620 CPU,两块GTX 1080ti GPU的工作站,软件为Ubuntu16.04操作系统、Python2.7的编程环境、Tensorflow1.3.0的深度学习框架。

    • 首先采用1.2节介绍的基于回归的目标检测技术训练野生动物目标检测器。从样本库中随机选择每类野生动物图片的80%作为训练样本,使用labelImg作为图像标定软件,对训练集图像中的野生动物区域进行人工标定。以Darknet-19作为特征提取网络,采用随机梯度下降法(SGD)为优化函数,初始学习率为0.001,冲量(momentum)为0.9,训练批次(batch size)为8。训练过程迭代次数为1 200次,图 6为训练准确率的变化图。训练集准确率在训练迭代1 200次后达到97%以上,将数据库中其余20%的样本作为验证集,最终验证集准确率为96.6%。这说明野生动物目标检测器满足90%的准确率要求,可以用来提取监测图像中野生动物所在区域。

      图  6  目标检测算法训练准确率

      Figure 6.  Training accuracy chart of the target detection algorithm

    • 训练VGG16网络模型时,采用随机梯度下降(stochastic gradient descent, SGD)算法进行优化实验,学习率采用步进阶梯调节策略step。网络模型训练参数如表 2所示。

      表 2  网络模型训练参数

      Table 2.  Training parameters of the network model

      参数类型
      Parameter type
      批量数据
      Batch data
      优化算法
      Optimization algorithm
      初始学习率
      Initial learning rate
      迭代次数
      Epochs
      损失函数
      Loss function
      值或方法Value or method 64 随机梯度下降
      Stochastic gradient descent
      0.001 50 交叉熵函数Cross entropy function

      为了丰富图像训练集,更好地提取图像特征,提高模型泛化能力,本研究在训练过程中采用仿射变换和裁剪等方式对样本图像进行数据扩充,将原有训练样本数据扩充5倍。将图像数据库中的每类野生动物图像分成训练集、测试集和验证集。其中训练集和测试集分别占每类动物图像总数的70%和30%,随机从图像数据库中产生20%作为验证集。

      选定平均识别精度的平均值MAP[23](mean average precision)来评价识别模型的好坏,MAP的计算公式如式(10):

      $$ \operatorname{MAP}=\frac{\sum\limits_{q=1}^{5} \operatorname{Ave} P(q)}{5} $$ (10)

      式中:q为野生动物物种的编号,P(q)为野生动物监测图像中第q类物种的识别精度,AveP(q)为第q类物种的平均识别精度(average precision,AP),MAP为5种物种的平均识别精度的均值。

    • 本研究算法中采用的网络结构是VGG16,为了验证不同网络结构对算法识别效果的影响,用VGG19结构代替VGG16进行训练识别,将两种结构下的训练效果进行对比。

      图 7所示为两种结构下的模型在训练时损失函数值和准确率随迭代次数的变化,两种模型的训练均在40次迭代之后开始趋于稳定。对5种野生动物的识别效果以及训练的MAP值和验证时最大MAP值的对比如表 3所示。

      图  7  损失函数值(a)和准确率(b)随迭代次数的变化

      Figure 7.  Variations of loss fuction values (a) and accuracy (b)with epoch changing

      表 3  不同物种的AP值与不同模型的MAP值

      Table 3.  AP value of different species and MAP value of varied models

      算法类别
      Algorithm class
      AP MAP(测试)
      MAP(test)
      最大MAP(验证)
      Max. MAP(validation)
      马鹿
      Red deer
      斑羚
      Goral

      Roe deer
      猞猁
      Lynx
      野猪
      Boar
      VGG19 0.87 0.82 0.82 0.83 0.81 0.83 0.87
      本研究算法Algorithm in this research 0.94 0.91 0.91 0.88 0.92 0.91 0.94
      注:AP代表平均识别精度,MAP代表平均识别精度的均值。Notes: AP is average identification precision, and MAP is mean AP.

      表 3中,2~6列为不同物种测试集的平均识别精度AP,第7列为测试集5种物种的平均识别精度的均值MAP,第8列为训练过程中,验证集的最大MAP值。综合分析图 7表 3可得:1)无论采用哪种结构,验证时的最大MAP值和测试时的MAP值相差较小,说明模型没有产生欠拟合或者过拟合的问题;2)训练时,相比于VGG19结构,VGG16结构下的损失函数值下降更快,稳定后的损失函数值更低,训练效率较高;3)两种结构下的测试准确率差值较小,但是VGG16结构下的测试准确率始终高于VGG19;4)针对研究中这5种野生动物,VGG16结构下的模型识别效果均优于VGG19,且最高的准确率差值达到11%;5)验证时,VGG16结构的最大MAP值为0.94,而VGG19结构的最大MAP值仅为0.87。

      VGG19网络相较于VGG16虽然具有更深的网络层数,但网络层数越深,网络反向传播的梯度相关性越差,造成梯度弥散现象,所以并非网络层数越深,识别效果越优。综上所述,本研究采用VGG16结构的模型,使得训练效果更优,训练效率更高,能够得到更高的MAP值,更加适合于红外自动感应相机下野生动物监测图像的物种识别。

    • R-CNN、Fast R-CNN[24]是DCNN初期应用算法中的主流方法,其思想也影响了目前大量的检测模型网络。R-CNN的核心思想是从输入图像中选出上千个候选框,对每个候选框做卷积运算以及特征提取,再使用分类器判别其类别;而Fast R-CNN则是只对输入图像做一次卷积运算得到特征图,找到每个候选框在特征图上的映射,再提取出特征输入分类器进行判别。这两种算法都是在输入图像上划分出大量的候选框进行处理,本研究算法则是对输入图像进行处理,分割出目标所在的区域,再进行之后的模型训练以及识别分类。为了证明本研究提出算法的有效性,在野生动物监测图像集上,分别利用4种算法对5种野生动物进行物种识别,图 8所示为不同算法准确率的对比,其MAP值的对比如表 4所示。

      图  8  4种模型下的5种野生动物测试准确率

      Figure 8.  Test accuracy of five kinds of wildlife under four models

      表 4  不同算法的MAP

      Table 4.  MAP of different algorithms

      算法类别
      Algorithm class
      VGG16 R-CNN Fast R-CNN 本研究算法
      Algorithm in this research
      最大MAP(验证)
      Max.MAP(validation)
      0.672 0.803 0.895 0.931
      MAP(测试)
      MAP(test)
      0.656 0.762 0.856 0.912

      综合分析图 8表 4可得:1)训练时,针对5种野生动物,本研究算法的训练效果相比于VGG16、R-CNN与Fast R-CNN均为最佳,测试时MAP的值也最高;2)与单独的VGG16结构相比,本研究算法对5种野生动物的测试准确率均高出20%以上,验证时的最大MAP值高出0.259,证明对图像进行ROI提取能够降低复杂背景信息对图像识别的影响,得到更好的识别效果;3)对于狍的准确率,本研究算法比R-CNN的准确率高出18%,狍的图像质量较差,动物本身与背景经常难以区分,说明本研究算法比R-CNN更好地减少了背景对图像识别的影响;4)与Fast R-CNN的表现相比,由于马鹿图像质量较好,大多比较清晰、辨识度高,受背景影响较小,本研究算法在马鹿的识别上仅高出2%,相比之下,背景更为复杂的猞猁、野猪、斑羚和狍图像的识别上,本研究算法的准确率就比Fast R-CNN提高了8%、5%、6%、7%,也说明了本研究算法在处理背景复杂的图像上优于Fast R-CNN,能够达到更高的识别准确率;5)验证时,本研究算法的最大MAP值最大,VGG16的最小,与识别效果的比较关系相对应,且对于4种算法,验证时的最大MAP值和测试时的MAP值的差值均较小,再次证明训练没有产生过拟合的问题。

      综上所述,与VGG16、R-CNN与Fast R-CNN相比,本研究算法在马鹿、猞猁、野猪、斑羚和狍的红外相机监测图像的检测与识别上具有更高的精度,图像初期的检测分割处理减少了无效背景的影响,对于树木遮挡、光线变化有较好的鲁棒性,更加满足野生动物监测图像识别的要求。

    • 针对红外自动感应相机在野外环境下拍摄的野生动物监测图像,提出一种基于ROI-CNN的图像自动识别方法,利用基于回归算法的目标检测与全局-局部的双通道卷积神经网络,有效克服复杂背景信息对野生动物监测图像物种识别的干扰。通过实验分析,采用VGG16作为卷积网络的测试准确率最高,对内蒙古赛罕乌拉国家级自然保护区内5种陆生野生动物的平均识别率均可达到90%左右。为了验证本研究算法的有效性,设计了与VGG16、R-CNN、Fast R-CNN算法的对比试验,与5种野生动物的测试准确率和MAP值进行对比,实验结果表明:针对全部5种野生动物,本研究提出算法的测试准确率最高,达到更高的测试MAP值,识别效果最优。

参考文献 (24)

目录

    /

    返回文章
    返回