高级检索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于Chirplet语图特征和深度学习的鸟类物种识别方法

谢将剑 李文彬 张军国 丁长青

谢将剑, 李文彬, 张军国, 丁长青. 基于Chirplet语图特征和深度学习的鸟类物种识别方法[J]. 北京林业大学学报, 2018, 40(3): 122-127. doi: 10.13332/j.1000-1522.20180008
引用本文: 谢将剑, 李文彬, 张军国, 丁长青. 基于Chirplet语图特征和深度学习的鸟类物种识别方法[J]. 北京林业大学学报, 2018, 40(3): 122-127. doi: 10.13332/j.1000-1522.20180008
Xie Jiangjian, Li Wenbin, Zhang Junguo, Ding Changqing. Bird species recognition method based on Chirplet spectrogram feature and deep learning[J]. Journal of Beijing Forestry University, 2018, 40(3): 122-127. doi: 10.13332/j.1000-1522.20180008
Citation: Xie Jiangjian, Li Wenbin, Zhang Junguo, Ding Changqing. Bird species recognition method based on Chirplet spectrogram feature and deep learning[J]. Journal of Beijing Forestry University, 2018, 40(3): 122-127. doi: 10.13332/j.1000-1522.20180008

基于Chirplet语图特征和深度学习的鸟类物种识别方法

doi: 10.13332/j.1000-1522.20180008
基金项目: 

中央高校基本科研业务费专项 2017JC14

国家重点研发项目 2017YFC1403503

详细信息
    作者简介:

    谢将剑,博士,讲师。主要研究方向:林业信息监测、信号处理、模式识别。Email : shyneforce@bjfu.edu.cn 地址:100083北京市海淀区清华东路35号北京林业大学工学院

    通讯作者:

    李文彬,博士,教授。主要研究方向:森林环境与信息监测。Email: leewb@bjfu.edu.cn 地址:同上

    丁长青,博士,教授。主要研究方向:鸟类学。Email: cqding@bjfu.edu.cn 地址:100083北京市海淀区清华东路35号北京林业大学自然保护区学院

  • 中图分类号: TP181

Bird species recognition method based on Chirplet spectrogram feature and deep learning

  • 摘要: 目的深度学习在鸟类物种识别的应用是目前的研究热点,为了进一步提高识别效果,提出一种基于鸟鸣声的Chirplet语图特征和深度卷积神经网络的鸟类物种识别方法。方法引入线性调频小波变换(Chirplet transform,CT)计算鸟鸣声信号的语图,输入深度卷积神经网络VGG16模型中,通过对语图进行分类实现鸟类物种的识别。以北京市松山国家自然保护区实地采集的18种鸟类为研究对象,利用Chirplet变换、短时傅里叶变换(short-time fourier transform,STFT)和梅尔频率倒谱变换(Mel frequency cepstrum transform,MFCT)计算得到3个不同的语图样本集,对比分别采用不同的语图样本集作为输入时鸟类物种识别模型的性能。结果结果表明:Chirplet语图作为输入时,测试集的平均识别准确率(mean average precision,MAP)达到0.9871,相对于其他两种输入,得到了更高的MAP值,而且在训练时达到最大MAP值的迭代次数最小。结论采用不同的语图特征作为输入,直接影响深度学习模型的分类性能。本文计算的Chirplet语图的鸣声区域相比STFT语图和Mel语图更为集中,特征更明显。因此,Chirplet语图更适合于基于VGG16模型的鸟类物种识别,可以得到更高的MAP值和更快的识别效率。
  • 图  1  识别模型结构

    Figure  1.  Structure of recognition model

    图  2  典型的鸣声语图

    Figure  2.  Typical spectrogram

    图  3  识别模型的训练和验证

    Figure  3.  Modeling flow of recognition model

    图  4  损失函数值随迭代次数的变化

    Figure  4.  Variation of loss with epochs increasing

    图  5  平均识别准确率随迭代次数的变化

    Figure  5.  Variation of MAP with epochs increasing

    表  1  18种鸟类鸣声信号的信息

    Table  1.   Vocalisation signal details of 18 kinds of bird

    目Order 科Family 种Species 时间
    Time/s
    语图数Size of spectrogram feature
    鸡形目Galloformes 雉科Phasianidae 环颈雉Phasianus colchicus 12 19
    鹃形目Cuculiformes 杜鹃科Cuculidae 四声杜鹃Cuculus micropterus 13 20
    中杜鹃Cuculus saturatus 52 87
    鹰鹃Cuculus sparverioides 34 90
    雀形目Passeriformes 鸦科Corvidae 大嘴乌鸦Corvus macrorhynchos 27 36
    红嘴蓝鹊Urocissa erythroryncha 96 199
    鸫科Turdidae 北红尾鸲Phoenicurus auroreus 37 89
    鹟科Muscicapidae 白眉姬鹟Ficedula zanthopygia 61 66
    黄眉姬鹟Ficedula narcissina 82 144
    绿背姬鹟Ficedula elisae 49 99
    山雀科Paridae 大山雀Parus major 54 100
    沼泽山雀Parus palustris 33 47
    褐头山雀Parus montanus 38 72
    黄腹山雀Parus venustulus 26 63
    䴓科Sittidae 黑头䴓 Sitta villosa 29 80
    普通䴓 Sitta europaea 36 131
    鹀科Emberizidae 灰眉岩鹀Emberiza godlewskii 23 57
    黄喉鹀Emberiza elegans 71 134
    下载: 导出CSV

    表  2  计算参数

    Table  2.   Calculation parameters

    参数类型
    Parameter type
    值或方法
    Value or method
    初始化Initialization 正态分布的随机初始化Random initialization of normal distribution
    优化算法Optimizer Adam
    学习率Learning rate 0.001
    损失函数Loss function 交叉熵函数Cross entropy function
    下载: 导出CSV

    表  3  不同输入时的MAP

    Table  3.   MAP with different inputs

    语图
    Spectrogram
    最大MAP(验证)
    Max MAP (validation)
    MAP(测试
    )MAP (test)
    Chirplet语图
    Chirplet spectrogram
    0.999 5 0.987 1
    梅尔语图
    Mel spectrogram
    0.973 3 0.942 1
    STFT语图
    STFT spectrogram
    0.950 1 0.896 2
    下载: 导出CSV
  • [1] 范宗骥, 董大颖, 郑然, 等.北京静福寺侧柏古树林鸟类群落多样性研究[J].北京林业大学学报, 2013, 35(5):46-55. http://j.bjfu.edu.cn/article/id/9946

    Fan Z J, Dong D Y, Zheng R, et al. Avian community diversity in Platycladus orientalis ancient trees at the Jingfu Temple in Beijing[J]. Journal of Beijing Forestry University, 2013, 35(5): 46-55. http://j.bjfu.edu.cn/article/id/9946
    [2] Green S, Marler P. The analysis of animal communication[M]. New York: Springer US, 1979.
    [3] Xia C, Huang R, Wei C, et al. Individual identification on the basis of the songs of the Asian stubtail (Urosphena squameiceps)[J]. Chinese Birds, 2011, 2(3):132-139. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgnl201103003
    [4] Tan L N, Abeer A, George K, et al. Dynamic time warping and sparse representation classification for birdsong phrase classification using limited training data[J]. Journal of the Acoustical Society of America, 2015, 137(3): 1069-1080. doi:  10.1121/1.4906168
    [5] Lee C H, Hsu S B, Shih J L, et al. Continuous birdsong recognition using gaussian mixture modeling of image shape features[J]. IEEE Transactions on Multimedia, 2012, 15(2): 454-464. http://cn.bing.com/academic/profile?id=e4bbf99759b51b973a3e5c45e7dd4003&encoded=0&v=paper_preview&mkt=zh-cn
    [6] Kalan A K, Mundry R, Wagner O J J, et al. Towards the automated detection and occupancy estimation of primates using passive acoustic monitoring[J]. Ecological Indicators, 2015, 54: 217-226. doi:  10.1016/j.ecolind.2015.02.023
    [7] Stowell D, Plumbley M D. Automatic large-scale classification of bird sounds is strongly improved by unsupervised feature learning[J]. PeerJ, 2014, 2(4): 1-24. http://cn.bing.com/academic/profile?id=c20d2857a0134c74d381699d4fe15859&encoded=0&v=paper_preview&mkt=zh-cn
    [8] 程金魁.基于鸣声的鸟类物种个体识别及鸣声关系分析[D].北京: 中国科学院大学, 2012.

    Cheng J K. Automatic bird species and individual recognition and the analysis of bird vocalizations[D]. Beijing: University of Chinese Academy of Sciences, 2012.
    [9] Koops H V, van Baben J, Wiering F, et al. A deep neural network approach to the LifeCLEF 2014 bird task[J]. CLEF Working Notes, 2014, 1180:1-9. http://cn.bing.com/academic/profile?id=0bb5fd3074758e9e3c0d71db28b2cf5c&encoded=0&v=paper_preview&mkt=zh-cn
    [10] Piczak K J. Recognizing bird species in audio recordings using deep convolutional neural networks[J]. CLEF Working Notes, 2016, 1609: 534-543. http://cn.bing.com/academic/profile?id=1daede1d019bd15cd65f166b76e64554&encoded=0&v=paper_preview&mkt=zh-cn
    [11] TÓth B P, Czeba B. Convolutional neural networks for large-scale bird song classification in noisy environment[C]. Évora, Portugal: Conference and Labs of the Evaluation Forum, 2016: 1-9.
    [12] 张帅, 淮永建.基于分层卷积深度学习系统的植物叶片识别研究[J].北京林业大学学报, 2016, 38(9):108-115. doi:  10.13332/j.1000-1522.20160035

    Zhang S, Huai Y J. Leaf image recognition based on layered convolutions neural network deep learning[J]. Journal of Beijing Forestry University, 2016, 38(9):108-115. doi:  10.13332/j.1000-1522.20160035
    [13] 刘念, 阚江明.基于多特征融合和深度信念网络的植物叶片识别[J].北京林业大学学报, 2016, 38(3):110-119. doi:  10.13332/j.1000-1522.20150267

    Liu N, Kan J M. Plant leaf identification based on the multi feature fusion and deep belief networks method[J]. Journal of Beijing Forestry University, 2016, 38(3):110-119. doi:  10.13332/j.1000-1522.20150267
    [14] Chen C, Liu M, Liu H, et al. Multi-temporal depth motion maps-based local binary patterns for 3-D human action recognition[J]. IEEE Access, 2017, 5:22590-22604. doi:  10.1109/ACCESS.2017.2759058
    [15] 周飞燕, 金林鹏, 董军, 卷积神经网络研究综述[J].计算机学报, 2017, 40 (7): 1-23. http://d.old.wanfangdata.com.cn/Periodical/jsjxb201706001

    Zhou F Y, Jin L P, Dong J. Review of convolutional neural network journal of computer applications[J]. Chinese Journal of Computers, 2017, 40 (7): 1-23. http://d.old.wanfangdata.com.cn/Periodical/jsjxb201706001
    [16] Hou R, Chen C, Shah M. Tube convolutional neural network (T-CNN) for action detection in videos[J]. IEEE International Conference on Computer Vision, 2017: 1-11. http://cn.bing.com/academic/profile?id=6a4f72d6728bcc8ce81219f3b6718b07&encoded=0&v=paper_preview&mkt=zh-cn
    [17] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv, 2014: 1-14. http://cn.bing.com/academic/profile?id=9a83dddfc646cd21a3e38737d303a369&encoded=0&v=paper_preview&mkt=zh-cn
    [18] Zou J, Li W, Chen C, et al. Scene classification using local and global features with collaborative representation fusion[J]. Information Sciences, 2016, 348:209-226. doi:  10.1016/j.ins.2016.02.021
    [19] Triantafyllidou D, Nousi P, Tefas A. Fast deep convolutional face detection in the wild exploiting hard sample mining[J]. Big Data Research, 2017, 3:1-24. http://cn.bing.com/academic/profile?id=3c1228dfffdc126a1ea8dc2633aedfd0&encoded=0&v=paper_preview&mkt=zh-cn
    [20] Uricchio T, Ballan L, Seidenari L, et al. Automatic image annotation via label transfer in the semantic space[J]. Pattern Recognition, 2017, 6: 1-15. http://cn.bing.com/academic/profile?id=423cea00e0ba24bcdb4bcf40c1cf3ce9&encoded=0&v=paper_preview&mkt=zh-cn
    [21] Bultan A. A four-parameter atomic decomposition of Chirplets[J]. IEEE Transactions on Signal Processing, 2002, 47(3):731-745. http://cn.bing.com/academic/profile?id=a00d5e651922ddf7fe4864eb641d7751&encoded=0&v=paper_preview&mkt=zh-cn
    [22] Glotin H, Ricard J, Balestriero R. Fast Chirplet transform to enhance CNN machine listening-validation on animal calls and speech[J]. arXiv, 2017: 1-22. http://cn.bing.com/academic/profile?id=0dcb90d45913b47851b3f80464eb30e6&encoded=0&v=paper_preview&mkt=zh-cn
    [23] Potamitis I, Ntalampiras S, Jahn O, et al. Automatic bird sound detection in long real-field recordings: applications and tools[J]. Applied Acoustics, 2014, 80(4): 1-9. http://cn.bing.com/academic/profile?id=ec7738dfaa30c2c81477679e08f86bf9&encoded=0&v=paper_preview&mkt=zh-cn
  • [1] 朱莉, 马婧尧, 孟兆新, 石晋菘, 邢鑫, 姜中金.  基于自适应遗传优化递归神经网络的木工送料平台补偿控制研究 . 北京林业大学学报, 2020, 42(12): 125-134. doi: 10.12171/j.1000-1522.20200248
    [2] 江涛, 王新杰.  基于卷积神经网络的高分二号影像林分类型分类 . 北京林业大学学报, 2019, 41(9): 20-29. doi: 10.13332/j.1000-1522.20180342
    [3] 胡静, 陈志泊, 杨猛, 张荣国, 崔亚稷.  基于全卷积神经网络的植物叶片分割算法 . 北京林业大学学报, 2018, 40(11): 131-136. doi: 10.13332/j.1000-1522.20180007
    [4] 于慧伶, 麻峻玮, 张怡卓.  基于双路卷积神经网络的植物叶片识别模型 . 北京林业大学学报, 2018, 40(12): 132-137. doi: 10.13332/j.1000-1522.20180182
    [5] 刘文定, 李安琪, 张军国, 谢将剑, 鲍伟东.  基于ROI-CNN的赛罕乌拉国家级自然保护区陆生野生动物自动识别 . 北京林业大学学报, 2018, 40(8): 123-131. doi: 10.13332/j.1000-1522.20180141
    [6] 张帅, 淮永建.  基于分层卷积深度学习系统的植物叶片识别研究 . 北京林业大学学报, 2016, 38(9): 108-115. doi: 10.13332/j.1000-1522.20160035
    [7] 刘念, 阚江明.  基于多特征融合和深度信念网络的植物叶片识别 . 北京林业大学学报, 2016, 38(3): 110-119. doi: 10.13332/j.1000-1522.20150267
    [8] 沈洁滢, 崔国发, 刘润泽, 曲宏, 黄三祥, 吴记贵, 范雅倩.  北京松山国家级自然保护区旅游线路周边野生动物分布规律 . 北京林业大学学报, 2016, 38(7): 71-80. doi: 10.13332/j.1000-1522.20150247
    [9] 林卓, 吴承祯, 洪伟, 洪滔.  基于BP神经网络和支持向量机的杉木人工林收获模型研究 . 北京林业大学学报, 2015, 37(1): 42-54. doi: 10.13332/j.cnki.jbfu.2015.01.008
    [10] 李杨, 袁梨, 史洋, 张志明, 纪建伟, 周许伟, 鲍伟东.  北京地区珍稀鸟类生态分布的GIS分析 . 北京林业大学学报, 2015, 37(5): 119-125. doi: 10.13332/j.1000-1522.20140344
    [11] 王丽君, 淮永建, 彭月橙.  基于叶片图像多特征融合的观叶植物种类识别 . 北京林业大学学报, 2015, 37(1): 55-69. doi: 10.13332/j.cnki.jbfu.2015.01.006
    [12] 阳艳岚, 董传龙, 黄建.  东北鸟类新纪录——红翅凤头鹃 . 北京林业大学学报, 2013, 35(2): 134-134.
    [13] 王轶夫, 孙玉军, 郭孝玉.  基于BP神经网络的马尾松立木生物量模型研究 . 北京林业大学学报, 2013, 35(2): 17-21.
    [14] 罗茜, 王鸿斌, 张真, 孔祥波.  基于MFCC与神经网络的小蠹声音种类自动鉴别 . 北京林业大学学报, 2011, 33(5): 81-85.
    [15] 黄家荣, 高光芹, 孟宪宇, 关毓秀.  基于人工神经网络的林分直径分布预测 . 北京林业大学学报, 2010, 32(3): 21-26.
    [16] 李春艳, 华德尊, 陈丹娃, 王萍, 任佳.  人工神经网络在城市湿地生态环境质量评价中的应用 . 北京林业大学学报, 2008, 30(增刊1): 282-286.
    [17] 胡淑萍, 余新晓, 王小平, 秦永胜, 陈俊崎.  人工神经网络在流域植被类型优化中的应用 . 北京林业大学学报, 2008, 30(supp.2): 1-5.
    [18] 何亚平, 胡万良, 秦爱光, 王费新, 刘杏娥, 张洪江, 袁怀文, 毛俊娟, 邓小文, 黄荣凤, 李瑞, 杨平, 胡胜华, 周永学, 殷亚方, 白岗栓, 郑小贤, 颜绍馗, 高黎, 张莉俊, 张璧光, 魏潇潇, 吴彩燕, 王芳, 费世民, 赵天忠, 樊军锋, 罗晓芳, 王小青, 张克斌, 王兆印, 汪思龙, 刘燕, 李猛, 常旭, 杜社妮, 孙向阳, 戴思兰, 王胜华, 张岩, 崔赛华, 王晓欢, NagaoHirofumi, 乔建平, 谭学仁, 王正, 张占雄, 王海燕, 孔祥文, 范冰, 张旭, 徐嘉, 高荣孚, 李华, 江玉林, 陈放, 韩士杰, 张双保, 江泽慧, KatoHideo, 李昀, 刘云芳, 龚月桦, , 任海青, 陈秀明, 李媛良, 郭树花, 常亮, , IdoHirofumi, 杨培华, 陈宗伟, 侯喜录, 刘秀英, 李晓峰, 丁磊, 蒋俊明, 费本华, , 徐庆祥, 薛岩, 张代贵, 张桂兰, 陈学平, 李考学, , 高建社, 王晓东, , 续九如, 李雪峰, 涂代伦, 刘永红, 金鑫, 张红丽, , , 丁国权, .  Elman动态递归神经网络在树木生长预测中的应用 . 北京林业大学学报, 2007, 29(6): 99-103.
    [19] 王兰珍, 吴丽娟, 李雪华, 赵铁珍, 周传艳, 李义良, 李生宇, 耿玉清, 方升佐, 王立海, HUALi_zhong, 张冬梅, 党文杰, 刘鹏举, 朱小龙, 薛康, 李国雷, 刘剑锋, 韦艳葵, 王旭, 任强, 段文霞, 汪杭军1, 李振基, 雷加强, 杨慧敏, 李建章, 何茜, 宋永明, 余新晓, 刘勇, 方陆明, 黎明, 尹光彩, 周亮, 杨娅, 刘勇, 朱波, 周国逸, 高岚, 韩士杰, 崔同林, 阎秀峰, 周宇飞, JIANGXi_dian, 苏晓华, 玲, 王清文, 孙向阳, 徐扬, 王春林, 虞木奎, 唐小明, 张冰玉, 沈熙环, 周国逸, 徐新文, 李吉跃, 鹿振友, 赖志华, 刘锐, 柯水发, 喻理飞, 宗文君, 程云清, HEXiu_bin, 王新杰, 国庆, 3, 周晓梅, 宋爱琴, 李丙文, 王伟宏, 李俊清, 李晓兰, , 郭蓓, 茹广欣, 齐涛, 孙阁, 陈峻崎, 陈培金, 陈实, 温亚利, 张志毅, 王建林, 蒋德明, 王旭, 张可栋, 王晓静, 周玉平, 姚永刚, 唐旭利, 长山, 刘志明, 宋湛谦, 王春林, 关少华, 陈放, 赵双荣, 杨伟伟, 闫俊华, 郑凌峰.  小波和神经网络在色木孔洞缺陷超声定量检测中的应用 . 北京林业大学学报, 2007, 29(2): 128-132.
    [20] 王岩, 孙宇瑞, 冶民生, 谢响明, 何磊, 蒋佳荔, 李绍才, 张学俭, 罗菊春, 侯旭, 柳新伟, 张文娟, 张金凤, 李云成, 朱妍, 高鹏, 盖颖, 贺庆棠, 王盛萍, 李永慈, 李吉跃, 吕建雄, 申卫军, 何静, 关文彬, 张华丽, 崔保山, 孙海龙, 廖学品, 唐守正, 王文棋, 昌明, 成仿云, 冯仲科, 张志强, 康向阳, 陆佩玲, 吴玉英, 马道坤, 李小飞, 于晓南, 石碧, 杨志荣, 王军辉, 张桂莲, 蒋湘宁, 关毓秀, 吴斌, 静洁, 路婷, 张平冬, 史剑波, 何权, 孙阁, 赵广杰, 陈永国, 王尚德, 蒲俊文, 张满良, 孙晓霞, 马克明, 彭少麟, 汪燕, 赵燕东, 胡文忠, 余新晓, 刘国华, 林威, 汪西林, .  马尾松人工林直径分布神经网络模型研究 . 北京林业大学学报, 2006, 28(1): 28-31.
  • 加载中
图(5) / 表 (3)
计量
  • 文章访问数:  1181
  • HTML全文浏览量:  279
  • PDF下载量:  67
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-01-05
  • 修回日期:  2018-01-17
  • 刊出日期:  2018-03-01

基于Chirplet语图特征和深度学习的鸟类物种识别方法

doi: 10.13332/j.1000-1522.20180008
    基金项目:

    中央高校基本科研业务费专项 2017JC14

    国家重点研发项目 2017YFC1403503

    作者简介:

    谢将剑,博士,讲师。主要研究方向:林业信息监测、信号处理、模式识别。Email : shyneforce@bjfu.edu.cn 地址:100083北京市海淀区清华东路35号北京林业大学工学院

    通讯作者: 李文彬,博士,教授。主要研究方向:森林环境与信息监测。Email: leewb@bjfu.edu.cn 地址:同上; 丁长青,博士,教授。主要研究方向:鸟类学。Email: cqding@bjfu.edu.cn 地址:100083北京市海淀区清华东路35号北京林业大学自然保护区学院
  • 中图分类号: TP181

摘要: 目的深度学习在鸟类物种识别的应用是目前的研究热点,为了进一步提高识别效果,提出一种基于鸟鸣声的Chirplet语图特征和深度卷积神经网络的鸟类物种识别方法。方法引入线性调频小波变换(Chirplet transform,CT)计算鸟鸣声信号的语图,输入深度卷积神经网络VGG16模型中,通过对语图进行分类实现鸟类物种的识别。以北京市松山国家自然保护区实地采集的18种鸟类为研究对象,利用Chirplet变换、短时傅里叶变换(short-time fourier transform,STFT)和梅尔频率倒谱变换(Mel frequency cepstrum transform,MFCT)计算得到3个不同的语图样本集,对比分别采用不同的语图样本集作为输入时鸟类物种识别模型的性能。结果结果表明:Chirplet语图作为输入时,测试集的平均识别准确率(mean average precision,MAP)达到0.9871,相对于其他两种输入,得到了更高的MAP值,而且在训练时达到最大MAP值的迭代次数最小。结论采用不同的语图特征作为输入,直接影响深度学习模型的分类性能。本文计算的Chirplet语图的鸣声区域相比STFT语图和Mel语图更为集中,特征更明显。因此,Chirplet语图更适合于基于VGG16模型的鸟类物种识别,可以得到更高的MAP值和更快的识别效率。

English Abstract

谢将剑, 李文彬, 张军国, 丁长青. 基于Chirplet语图特征和深度学习的鸟类物种识别方法[J]. 北京林业大学学报, 2018, 40(3): 122-127. doi: 10.13332/j.1000-1522.20180008
引用本文: 谢将剑, 李文彬, 张军国, 丁长青. 基于Chirplet语图特征和深度学习的鸟类物种识别方法[J]. 北京林业大学学报, 2018, 40(3): 122-127. doi: 10.13332/j.1000-1522.20180008
Xie Jiangjian, Li Wenbin, Zhang Junguo, Ding Changqing. Bird species recognition method based on Chirplet spectrogram feature and deep learning[J]. Journal of Beijing Forestry University, 2018, 40(3): 122-127. doi: 10.13332/j.1000-1522.20180008
Citation: Xie Jiangjian, Li Wenbin, Zhang Junguo, Ding Changqing. Bird species recognition method based on Chirplet spectrogram feature and deep learning[J]. Journal of Beijing Forestry University, 2018, 40(3): 122-127. doi: 10.13332/j.1000-1522.20180008
  • 鸟类群落是森林生态系统的重要组成部分,是森林生态系统健康状况评价的指示物种[1]。鸟类物种的调查和监测是了解群落组成和多样性变化的重要手段。在物种水平上,鸟类鸣声具有一定的稳定性和明显的物种鉴别特征,是鸟类物种识别的主要方式之一[2]。基于鸣声识别鸟类物种,进而应用于实现鸟类物种调查与监测,具有高效率、非损伤、低干扰、大范围等优势,具有巨大的应用前景[3]

    基于鸣声识别鸟类的重点就在于分析其鸣声中具有辨识性的差异特征,并对差异特征进行分类。目前常用的鸟鸣声分类方法包括:1)基于模板匹配的分类方法,最具代表性的就是动态时间规整算法[4],该方法虽然识别精度较高,但是运算量太大,影响识别效率;2)建立基于特征的分类模型实现分类,常用的模型或方法有隐马尔可夫模型[5]、高斯混合模型[6]、随机森林[7]以及支持向量机[8]等,该类方法中手动提取合适的差异特征仍是一大瓶颈;3)基于深度学习的分类方法,Koops等[9]利用具有3个隐藏层的深度神经网络(deep neural network,DNN)模型实现基于鸣声的鸟类物种识别,选择鸣声信号的梅尔频率倒谱系数(Mel frequency cepstrum coefficient, MFCC)、MFCC的均值及方差、delta-MFCC以及delta-delta-MFCC的组合作为输入时的识别效果最优,平均识别准确率(mean average precision,MAP)达到了0.73。Piczak[10]以鸣声信号的梅尔频域谱图为输入,设计了3种不同结构的深度卷积神经网络(deep convolutional neural network,DCNN)分别进行鸟类物种的识别,结果表明输入大小、网络的层数以及网络结构都会对识别效果产生影响,对含有背景鸣声的信号进行识别得到最优的MAP为0.529。Tóth等[11]采用固定大小的语图作为输入,将改进的深度卷积神经网络AlexNet用于含有背景鸣声的环境下,基于鸣唱的鸟类物种识别,得到最优的MAP为0.426。上述研究表明:要获取高的MAP值,需要选择合适的模型输入以及合理的网络结构。

    深度学习拥有较强的分类能力,可以自动获取并组合表征输入的特征信息[12-14]。因此,模型的输入直接影响模型的分类能力。为了进一步提高鸟类物种识别的准确率,本文引入线性调频小波变换(Chirplet transform,CT)计算鸟鸣声的语图,输入到深度卷积神经网络VGG16中,通过对语图进行分类实现鸟类物种的识别。并以北京松山国家级自然保护区的18种鸟类为例,对比了Chirplet语图、短时傅里叶变换语图以及梅尔倒谱变换语图作为输入时,鸟类物种识别模型的性能,验证了采用Chirplet语图特征的优越性。

    • DCNN通过多个卷积层和池化层自主学习图像特征,利用全连接层对特征进行分类,进而实现图像的识别。DCNN具有局部连接、权值共享及池化操作等特性,可以有效地降低网络的复杂度,减少训练参数的数目,在图像分类和识别中得到广泛的应用[15-16]。VGG16是由Simonyan和Zisserman构造的一种DCNN模型[17],利用ImageNet的图片进行训练,得到0.927的平均识别准确率,因此在图像识别领域得到了广泛的应用[18-20]。利用Chirplet语图作为输入,将基于鸟类鸣声的物种识别转换为语图的分类问题,将VGG16模型的softmax输出层的节点数改为18,用于实现北京松山国家级自然保护区18种鸟类的识别,得到的识别模型结构如图 1所示。

      图  1  识别模型结构

      Figure 1.  Structure of recognition model

    • 2008—2017年每年的鸟类繁殖季节(4—6月),采用Marantz PMD-671数字固态录音机(Marantz,日本)和Sennheiser MKH416-P48外接强指向性话筒(Sennheiser Electronic,德国),在北京松山国家级自然保护区采集了多种野生鸟类的鸣声信号,鸣声信号的采样精度为16bit,采样频率为44.1kHz。从中选择了18种物种鉴别准确的鸟类鸣声信号用于本研究,所选取的鸣声信号信噪比高,背景噪声主要来自于风声和远处的鸟鸣声。前景音中只存在单一物种,而且不同个体的鸣声不存在重叠。表 1所示为按照分类地位排序的18种鸟类鸣声信号的信息,时间是对应鸟类物种的多个鸣声信号持续时间的累积。

      表 1  18种鸟类鸣声信号的信息

      Table 1.  Vocalisation signal details of 18 kinds of bird

      目Order 科Family 种Species 时间
      Time/s
      语图数Size of spectrogram feature
      鸡形目Galloformes 雉科Phasianidae 环颈雉Phasianus colchicus 12 19
      鹃形目Cuculiformes 杜鹃科Cuculidae 四声杜鹃Cuculus micropterus 13 20
      中杜鹃Cuculus saturatus 52 87
      鹰鹃Cuculus sparverioides 34 90
      雀形目Passeriformes 鸦科Corvidae 大嘴乌鸦Corvus macrorhynchos 27 36
      红嘴蓝鹊Urocissa erythroryncha 96 199
      鸫科Turdidae 北红尾鸲Phoenicurus auroreus 37 89
      鹟科Muscicapidae 白眉姬鹟Ficedula zanthopygia 61 66
      黄眉姬鹟Ficedula narcissina 82 144
      绿背姬鹟Ficedula elisae 49 99
      山雀科Paridae 大山雀Parus major 54 100
      沼泽山雀Parus palustris 33 47
      褐头山雀Parus montanus 38 72
      黄腹山雀Parus venustulus 26 63
      䴓科Sittidae 黑头䴓 Sitta villosa 29 80
      普通䴓 Sitta europaea 36 131
      鹀科Emberizidae 灰眉岩鹀Emberiza godlewskii 23 57
      黄喉鹀Emberiza elegans 71 134
    • 在计算鸣声语图之前,需要对鸣声信号进行预处理,包括预加重、分割、分帧以及加窗。鸟鸣声在传播时,由于受到辐射效应的影响,高频成分的强度下降较低频成分迅速,通过一阶高通滤波器对信号进行预加重,可以提高鸣声的高频部分。在时域上的处理如式(1)所示:

      $$ \hat{x}(n)=x(n)-\lambda x(n-1) $$ (1)

      式中:$\hat{x}(n)$、x(n)分别为预加重后和预加重前的第n个采样值,λ为预加重系数,本文取0.95。

      鸣声分割通过去除鸣声信号中静音区,使各有效鸣声段连续。本文采用能量阈值法,计算每帧信号的能量,将能量小于最大能量60%的帧,认为是静音区,并去除对应的信号区域,实现鸣声信号的分割。

      鸣声信号是一种非平稳随机过程,只在短时间内可以认为是平稳的。因此在进行时频变换时,将鸣声信号分帧,同时为了避免分帧后的信号两端可能会造成的不连续性,通常需要对每帧信号加窗。本文选择帧长为50ms,重叠30%,窗函数选择汉明窗。

    • CT是一种线性时频表示,允许参照其他的时频表示来辅助调制时频平面上的每一个原子,CT具有短时傅里叶变换和小波变换的所有特性,在表征短时平稳信号时具有明显优势[21]

      线性调频小波变换时,对信号z(t)的完整解析表达式为:

      $$ \mathrm{CT}_{\mathrm{s}}\left(t_{\mathrm{c}}, f_{c}, \Delta t, c\right)=\int_{-\infty}^{\infty} z(t) g(t) \mathrm{d} t $$ (2)

      式中:g(t)为线性调频母小波基函数,具体表达式如式(3)。

      $$ g_{t_{c} f_{c}, \Delta t, c}(t)=\frac{1}{\sqrt{\sqrt{\pi} \Delta t}} e^{-\frac{\left(i-t_{c}\right)^{2}}{2 \Delta t^{2}}} e^{i 2 \pi\left(c\left(t-t_{c}\right)^{2}+f_{c}\left(t-t_{c}\right)\right)} $$ (3)

      式中:t为时间(s),tc为时间中心(s),fc为频率中心(Hz),Δt为持续时间(s),c为线性调频率。对每一帧信号进行线性调频小波变换,利用快速Chirplet分解算法[22]计算得到小波系数,然后利用小波系数生成语图。

      为了对比不同时频变换下的语图作为输入时,识别模型的效果,选择另外两种常见的时频变换方法——短时傅里叶变换(short-time Fourier transform,STFT)和梅尔频域倒谱变换(Mel frequency cepstrum transform,MFCT)来计算语图。本文计算前32维的MFCC,去掉表征平均值的第0维,对余下31维的系数叠加形成Mel频域下的语图。

      对采集的鸣声进行预处理后,分别采用以上3种时频变换方法生成语图。Potamitis等[23]研究发现:利用语图特征进行分类时,选择音节特征作为输入比选择鸣唱特征的分类效果更好。因此,本文选择长度为500 ms的鸣声信号对应的语图,保存成大小为224×224的彩色图像,作为模型的输入。图 2所示分别为黄喉鹀(Emberiza elegans)、红嘴蓝鹊(Urocissa erythroryncha)、黄腹山雀(Parus venustulus)和北红尾鸲(Phoenicurus auroreus)的鸣声信号及计算得到的语图,从上到下依次为鸣声信号的时域波形、STFT语图、Mel语图以及Chirplet语图。从图中可以看出:Chirplet语图的鸣声区域更为集中,特征更明显,适合作为差异特征。

      图  2  典型的鸣声语图

      Figure 2.  Typical spectrogram

      利用采集的鸣声计算得到18种鸟类的鸣声语图的数量如表 1所示,不同鸟类的语图数量相差较大,属于不均衡样本集,不适合于训练DCNN模型。为了扩充样本集,本文将分帧后的同种鸟类鸣声信号进行随机混合,计算得到新的语图,最终使得每种鸟类的语图数量均为200。利用3种时频变换对鸣声信号进行计算,便可建立3个不同的鸣声语图样本集。

    • 本试验采用的硬件平台为内存8G,双核CPU,主频2.8GHz的台式计算机,软件为Win7 64位操作系统,Python3.5的编程环境,Tensorflow1.3.0的深度学习框架。

      试验时,将3个鸣声语图样本集均按照8:1:1的比例随机设置成训练集、验证集和测试集,对本文提出的识别模型进行训练和验证,具体流程如图 3所示。

      图  3  识别模型的训练和验证

      Figure 3.  Modeling flow of recognition model

      在训练过程中,为了加快数据的处理速度,将数据集分成多个分区(batch),适当增大分区大小(batch size)可以提高处理效率。综合考虑到训练用的电脑内存有限,选择分区大小为10。模型训练的其他参数如表 2所示。

      表 2  计算参数

      Table 2.  Calculation parameters

      参数类型
      Parameter type
      值或方法
      Value or method
      初始化Initialization 正态分布的随机初始化Random initialization of normal distribution
      优化算法Optimizer Adam
      学习率Learning rate 0.001
      损失函数Loss function 交叉熵函数Cross entropy function
    • 通常利用平均识别准确率MAP来评价识别模型的好坏,本文提出模型的MAP计算公式如式(4):

      $$ \operatorname{MAP}=\frac{\sum\limits_{q=1}^{18} \operatorname{Ave} P(q)}{18} $$ (4)

      式中:q为鸟类物种的编号,AveP(q)为第q类物种的平均识别正确率。

      利用3种类型的语图样本集作为输入,分别对物种识别模型进行训练和验证。图 4所示为模型在训练时损失函数值随迭代次数的变化,图 5为验证时MAP随着迭代次数的变化,图中曲线的标记分别为Chirplet语图、Mel语图和STFT语图。验证时的最大MAP值和训练的MAP值的对比如表 3所示。

      图  4  损失函数值随迭代次数的变化

      Figure 4.  Variation of loss with epochs increasing

      图  5  平均识别准确率随迭代次数的变化

      Figure 5.  Variation of MAP with epochs increasing

      表 3  不同输入时的MAP

      Table 3.  MAP with different inputs

      语图
      Spectrogram
      最大MAP(验证)
      Max MAP (validation)
      MAP(测试
      )MAP (test)
      Chirplet语图
      Chirplet spectrogram
      0.999 5 0.987 1
      梅尔语图
      Mel spectrogram
      0.973 3 0.942 1
      STFT语图
      STFT spectrogram
      0.950 1 0.896 2

      综合分析图 45表 3可得:1)无论采用哪种语图输入,验证时的最大MAP值和测试时的MAP值相差较小,说明模型没有产生过拟合的问题,训练的模型具有一定的泛化性能;2)训练时,相比另外两种语图输入,Chirplet语图输入的损失函数值下降最快,训练效率更高;3)验证时,Chirplet语图输入的最大MAP值最大,STFT语图输入的最小;达到最大MAP值的迭代次数,Chirplet语图输入的最小,STFT语图输入的最大。

      综上所述,选择Chirplet语图作为输入不仅可以得到更高的MAP,而且有利于提高识别效率,更适合于本研究的鸟类物种识别。

    • 利用DCNN模型对鸟类鸣声语图进行分类,可以实现鸟类物种的识别。为了进一步提高识别的准确率,提出一种基于Chirplet语图特征和VGG16模型的鸟类物种识别方法。该方法首先计算鸟鸣声信号的Chirplet语图,然后输入到VGG16模型实现鸟类物种的识别。以北京松山国家级自然保护区18种鸟类为研究对象,对比了Chirplet语图、STFT语图和Mel语图作为输入时鸟类物种识别模型的性能,结果表明:Chirplet语图作为输入时,不仅可以得到更高的MAP,而且有利于提高识别效率。此外,本研究在进行预处理时,未对鸣声信号进行噪声的去除,说明提出的识别模型具有一定的抗噪的能力。

参考文献 (23)

目录

    /

    返回文章
    返回