高级检索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于机器学习的落叶松毛虫发生面积预测模型

张文一 景天忠 严善春

张文一, 景天忠, 严善春. 基于机器学习的落叶松毛虫发生面积预测模型[J]. 北京林业大学学报, 2017, 39(1): 85-93. doi: 10.13332/j.1000-1522.20160205
引用本文: 张文一, 景天忠, 严善春. 基于机器学习的落叶松毛虫发生面积预测模型[J]. 北京林业大学学报, 2017, 39(1): 85-93. doi: 10.13332/j.1000-1522.20160205
ZHANG Wen-yi, JING Tian-zhong, YAN Shan-chun. Studies on prediction models of Dendrolimus superans occurrence area based on machine learning[J]. Journal of Beijing Forestry University, 2017, 39(1): 85-93. doi: 10.13332/j.1000-1522.20160205
Citation: ZHANG Wen-yi, JING Tian-zhong, YAN Shan-chun. Studies on prediction models of Dendrolimus superans occurrence area based on machine learning[J]. Journal of Beijing Forestry University, 2017, 39(1): 85-93. doi: 10.13332/j.1000-1522.20160205

基于机器学习的落叶松毛虫发生面积预测模型

doi: 10.13332/j.1000-1522.20160205
基金项目: 

东北林业大学学术名师支持计划 010602071

详细信息
    作者简介:

    张文一。主要研究方向:昆虫化学生态。Email:2904261860@qq.com  地址:150040  黑龙江省哈尔滨市和兴路26号东北林业大学林学院

    通讯作者:

    严善春,教授,博士生导师。主要研究方向:昆虫化学生态。Email:yanshanchun@126.com  地址:同上

  • 中图分类号: S763.3

Studies on prediction models of Dendrolimus superans occurrence area based on machine learning

  • 摘要: 落叶松毛虫为我国主要害虫之一,其发生严重影响了我国林木生长和森林资源的安全。因此,及时准确地对落叶松毛虫虫害发生趋势进行预测、预报十分必要。虫害的发生受到多种因素的影响,存在复杂的非线性关系,传统的预测方法大多为基于线性的预测,导致其预测效果不够理想。本研究选取当年3月中旬的总蒸发量、上年7月上旬的平均最低气温、当年3月下旬的极端最低气温以及上年11月上旬的平均风速作为自变量,虫害发生面积作为因变量,利用多层前馈神经网络(MLFN)、广义回归神经网络(GRNN)以及支持向量机(SVM)3种机器学习算法对落叶松毛虫发生面积进行预测,并将3种方法的预测结果与传统多元线性回归预测方法相比较。结果表明,机器学习的预测效果均在很大程度上优于多元线性回归预测,并且在3种机器学习算法中,SVM模型的预测效果最好,在30%容忍度下其预测精度可以达到100%,并且该模型还有较低的RMSE值(0.077)和较短的训练时间(1 s)。这表明,机器学习可以应用于生产实际并有效预测虫害发生面积,尤其是SVM模型可以作为一种很好的虫害发生预测手段。
  • 图  1  MLFN原理图

    Figure  1.  Structure of the MLFN

    图  2  神经元ij之间的关系

    Figure  2.  Connection between neurons i and j

    图  3  GRNN原理图

    Figure  3.  Structure of the GRNN

    图  4  支持向量确定最优超平面的位置

    Figure  4.  Support vectors determining the position of optimal hyperplane

    图  5  MLFN预测结果

    Figure  5.  Predicting results of MLFN model

    图  6  GRNN预测结果

    Figure  6.  Predicting results of GRNN model

    图  7  SVM模型预测结果

    Figure  7.  Predicting results of SVM model

    表  1  多元线性回归系数表

    Table  1.   Coefficients of multiple regression model

    模型
    Model
    非标准化系数
    Non standardized coefficient
    标准系数
    Standard coefficient
    tP
    系数
    Coefficient
    标准误差
    Standard error
    α010.7192.4944.2970
    X10.1630.0520.5463.1510.006
    X2-0.6220.138-0.789-4.5170
    X30.1450.050.5032.8900.01
    X4-0.6110.35-0.256-1.7460.099
    注:α0为常量,X1为蒸发量,X2为平均最低气温,X3为极端最低气温,X4为平均风速。Notes: α0 means constant variable, X1 means evaporation capacity, X2 means average minimum temperature, X3 means extreme minimum temperature, X4 means average wind speed.
    下载: 导出CSV

    表  2  多元线性回归模型汇总表

    Table  2.   Summary sheet of multiple regression model

    模型
    Model
    RR2调整R2
    Adjusted R2
    标准估计的误差
    Standard estimate error
    10.8190.6710.5940.910 51
    下载: 导出CSV

    表  3  多元线性回归预测结果

    Table  3.   Predicting results of multiple regression model

    年份
    Year
    实际值/103
    hm2Actual value/103
    ha
    预测值/103
    hm2Predicting value/103 ha
    19920.8000.90
    19990.6670.49
    20000.733-0.63
    20071.0001.29
    20110.760-0.16
    20120.8670.15
    下载: 导出CSV

    表  4  ANN预测结果

    Table  4.   Predicting results of ANN

    年份
    Year
    实际值/103 hm2
    Actual value/103 ha
    MLFN模型预测值/103 hm2
    Predicting value of MLFN/103 ha
    GRNN模型预测值/103 hm2
    Predicting value of GRNN/103 ha
    19920.8000.84(Good)0.52(Bad)
    19990.6670.99(Bad)0.13(Bad)
    20000.7330.03(Bad)0.69(Good)
    20071.0001.37(Bad)1.01(Good)
    20110.7600.30(Bad)0.66(Good)
    20120.8670.74(Good)1.00(Good)
    RMSE0.400 20.256 5
    注:30%容忍度下预测结果准确为Good,不准确为Bad。下同。Notes: under the tolerance of 30%, the precision of predicting results was labeled as Good, or as Bad. The same below.
    下载: 导出CSV

    表  5  SVM预测结果

    Table  5.   Predicting results of SVM

    年份
    Year
    实际值/103 hm2
    Actual value/103 ha
    预测值/103 hm2
    Predicting value/103 ha
    19920.8000.767(Good)
    19990.6670.770(Good)
    20000.7330.691(Good)
    20071.0001.101(Good)
    20110.7600.792(Good)
    20120.8670.971(Good)
    RMSE0.077
    下载: 导出CSV

    表  6  不同预测方法的预测效果对比

    Table  6.   Comparison in predicting results among varied predicting models

    项目
    Item
    实际值/103 hm2
    Actual value/103 ha
    多元线性回归
    Multiple regression model
    MLFN模型
    MLFNmodel
    GRNN模型
    GRNNmodel
    SVM模型
    SVMmodel
    年份
    Year
    19920.8000.900.840.080.77
    19990.6670.490.990.800.77
    20000.733-0.630.030.130.69
    20071.0001.291.371.271.10
    20110.760-0.160.300.470.79
    20120.8670.150.740.600.97
    RMSE预测准确率
    Forecasting accuracy
    0.747 40.400 20.256 50.077 0
    33.33%66.67%100%
    训练时间
    Training time
    0:00:560:00:010:00:01
    下载: 导出CSV
  • [1] 王文龙.落叶松毛虫成虫种群数量监测技术研究[D].北京: 北京林业大学, 2014. http://cdmd.cnki.com.cn/Article/CDMD-10022-1014327487.htm

    WANG W L. Technology of population dynamics monitoring of Dendrolimus superans (Butler) adult[D]. Beijing: Beijing Forestry University, 2014. http://cdmd.cnki.com.cn/Article/CDMD-10022-1014327487.htm
    [2] 邹莉, 张国权, 黄建伟.东北地区落叶松毛虫研究进展[J].安徽农业科学, 2014, 42(9): 2584-2587. doi:  10.3969/j.issn.0517-6611.2014.09.024

    ZOU L, ZHANG G Q, HUANG J W. Research progress of Dendrolimus superansis in Northeast of China[J]. Journal of Anhui Agricutural Science, 2014, 42(9): 2584-2587. doi:  10.3969/j.issn.0517-6611.2014.09.024
    [3] 高宝嘉.关于森林有害生物可持续控制的思考[J].北京林业大学学报, 1999, 21(4): 112-115. doi:  10.3321/j.issn:1000-1522.1999.04.024

    GAO B J. Consideration on sustainable control of forest pests[J]. Journal of Beijing Forestry University, 1999, 21(4): 112-115. doi:  10.3321/j.issn:1000-1522.1999.04.024
    [4] 薛贤清.在马尾松毛虫测报中应用逐步回归电算方法的研究[J].林业科学, 1984, 20(1): 42-49. http://www.linyekexue.net/CN/Y1984/V20/I1/42

    XUE X Q. A study on the application of successive regression by computerization method to the forecast of Dendrolimus punctarus[J]. Scientia Silvae Sinicae, 1984, 20(1): 42-49. http://www.linyekexue.net/CN/Y1984/V20/I1/42
    [5] 梁其伟.四川省马尾松毛虫不同发生类型区的气候条件判别分析[J].数理统计与管理, 1990(1): 12-16. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=QK000002792926

    LIANG Q W. Discriminant analysis on climatic conditions of different occurrence types of Dendrolimus punctatus in Sichuan Province[J]. Journal of Applied Statistics and Management, 1990(1): 12-16. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=QK000002792926
    [6] 李天生, 赵良彪, 卢崇飞, 等.用双重筛选逐步回归法对广西钦州县松毛虫发生进行分析与预测[J].林业科学, 1985, 21(3): 247-252. http://www.linyekexue.net/EN/abstract/abstract365.shtml

    LI T S, ZHAO L B, LU C F, et al. Analysis and predicting of the pine caterpillar of Qinzhou County in Guangxi Autonomous Region by means of double selection stepwise regression method[J]. Scientia Silvae Sinicae, 1985, 21(3): 247-252. http://www.linyekexue.net/EN/abstract/abstract365.shtml
    [7] 吴敬, 洪伟, 翁少容, 等.马尾松毛虫消长预报的数量化模型[J].林业科学, 1983, 19(1): 39-45. http://www.linyekexue.net/CN/Y1983/V19/I1/39

    WU J, HONG W, WENG S R, et al. The quantitative model for forecasting the growth and decline of Dendrolimus punctatus[J]. Scientia Silvae Sinicae, 1983, 19(1): 39-45. http://www.linyekexue.net/CN/Y1983/V19/I1/39
    [8] 叶文虎, 马小明, 李天生, 等.马尾松毛虫预测预报系统的研究[J].林业科学研究, 1990, 3(5): 427-433. http://www.lykxyj.com/ch/reader/view_abstract.aspx?file_no=19900502&flag=1

    YE W H, MA X M, LI T S, et al. The population prediction of the pine caterpillar[J]. Forest Research, 1990, 3(5): 427-433. http://www.lykxyj.com/ch/reader/view_abstract.aspx?file_no=19900502&flag=1
    [9] 王淑芬, 张真, 陈亮.马尾松毛虫防治决策专家系统[J].林业科学, 1992, 28(1): 31-38. http://d.old.wanfangdata.com.cn/Conference/205444

    WANG S F, ZHANG Z, CHEN L. An expert system for the control of Dendrolimus punctatus[J]. Scientia Silvae Sinicae, 1992, 28(1): 31-38. http://d.old.wanfangdata.com.cn/Conference/205444
    [10] 王霓虹, 缪天宇, 王阿川.基于WebGIS的森林病虫害预测预报专家系统的设计与应用[J].东北林业大学学报, 2008, 36(1): 79-80, 82. doi:  10.3969/j.issn.1000-5382.2008.01.032

    WANG N H, LIAO T Y, WANG A C. Research and application of web-based forecast expert system for forest disease and insects[J]. Journal of Northeast Forestry University, 2008, 36(1): 79-80, 82. doi:  10.3969/j.issn.1000-5382.2008.01.032
    [11] 高倩.落叶松毛虫预测模型与模拟研究[D].保定: 河北农业大学, 2012. http://cdmd.cnki.com.cn/Article/CDMD-11920-1012332275.htm

    GAO Q. The study on prediction model and simulation of Dendrolimus superans[D]. Baoding: Agricultural University of Hebei, 2012. http://cdmd.cnki.com.cn/Article/CDMD-11920-1012332275.htm
    [12] 王霓虹, 李丹, 潘华.落叶松毛虫虫害防治预测咨询平台的研建[J].北京林业大学学报, 2009, 31(增刊2): 31-35. http://bjly.chinajournal.net.cn/editorc/WebPublication/paperDigest.aspx?paperID=BJLY2009S2006&isCnki=ck01

    WANG N H, LI D, PAN H. Consultation platform of prevention and forecasting for Dendrolimus superans[J]. Journal of Beijing Forestry University, 2009, 31(Suppl. 2): 31-35. http://bjly.chinajournal.net.cn/editorc/WebPublication/paperDigest.aspx?paperID=BJLY2009S2006&isCnki=ck01
    [13] 戚莹.基于模糊神经网络的森林虫害预测预报的应用研究[D].哈尔滨: 东北林业大学, 2011. http://cdmd.cnki.com.cn/Article/CDMD-10225-1011146672.htm

    QI Y. The research on forest pest forecast based on fuzzy neural network[D]. Harbin: Northeast Forestry University, 2011. http://cdmd.cnki.com.cn/Article/CDMD-10225-1011146672.htm
    [14] 闫友彪, 陈元琰.机器学习的主要策略综述[J].计算机应用研究, 2004, 21(7): 4-10. doi:  10.3969/j.issn.1001-3695.2004.07.002

    YAN Y B, CHEN Y Y. A survey on machine learning and its main strategy[J]. Application Research of Computers, 2004, 21(7): 4-10. doi:  10.3969/j.issn.1001-3695.2004.07.002
    [15] 杨淑香, 赵慧颖, 包兴华.基于人工神经网络的落叶松毛虫发生量预测模型的研究[J].中国农学通报, 2014, 30(28): 72-75. http://d.old.wanfangdata.com.cn/Periodical/zgnxtb201428014

    YANG S X, ZHAO H Y, BAO X H. A study on the forecast model of Dendrolimus superans butler occurrence based on artificial neural network[J]. Chinese Agricultural Science Bulletin, 2014, 30(28): 72-75. http://d.old.wanfangdata.com.cn/Periodical/zgnxtb201428014
    [16] 张景阳, 潘光友.多元线性回归与BP神经网络预测模型对比与运用研究[J].昆明理工大学学报(自然科学版), 2013, 38(6): 61-67. doi:  10.3969/j.issn.1007-855x.2013.06.010

    ZHANG J Y, PAN G Y. Comparison and application of multiple regression and BP neural network prediction model[J]. Journal of Kunming University of Science and Technology (Natural Science Edition), 2013, 38(6): 61-67. doi:  10.3969/j.issn.1007-855x.2013.06.010
    [17] 毛健, 赵红东, 姚婧婧.人工神经网络的发展及应用[J].电子设计工程, 2011, 19(24): 62-65. doi:  10.3969/j.issn.1674-6236.2011.24.022

    MAO J, ZHAO H D, YAO J J. Application and prospect of artificial neural network[J]. Electronic Design Engineering, 2011, 19(24): 62-65. doi:  10.3969/j.issn.1674-6236.2011.24.022
    [18] HOPFIELD J J. Artificial neural networks[J]. IEEE Circuit & Devices Magazine, 1988, 4(5): 3-10. http://d.old.wanfangdata.com.cn/Periodical/gpxygpfx201509047
    [19] YEGNANARAYANA B. Artificial neural networks[M]. New Delhi: PHI Learning Pvt. Ltd., 2009.
    [20] DAYHOFF J E, DELEO J M. Artificial neural networks[J]. Cancer, 2001, 91(Suppl. 8): 1615-1635. http://d.old.wanfangdata.com.cn/Periodical/gpxygpfx201509047
    [21] SPECHT D F. A general regression neural network[J]. IEEE Transactions on Neural Networks, 1991, 2(6): 568-576. doi:  10.1109/72.97934
    [22] 田万银, 徐华潮.基于相空间重构及GRNN的海防林害虫预测及效果检验[J].浙江林业科技, 2014, 34(2): 65-69. doi:  10.3969/j.issn.1001-3776.2014.02.016

    TIAN W Y, XU H C. Coastal protection forest pest forecasting and verification based on phase space reconstruction and GRNN[J]. Journal of Zhejiang Forestry Science and Technology, 2014, 34(2): 65-69. doi:  10.3969/j.issn.1001-3776.2014.02.016
    [23] 金帅军.基于GRNN神经网络的农作物虫害量预测系统设计[D].呼和浩特: 内蒙古工业大学, 2013. http://cdmd.cnki.com.cn/Article/CDMD-10128-1014012754.htm

    JIN S J. Design the prediction of system insect pests of crop based on GRNN neural network[D]. Hohhot: Inner Mongolia University of Technology, 2013. http://cdmd.cnki.com.cn/Article/CDMD-10128-1014012754.htm
    [24] SVOZIL D, KVASNICKAB V, POSPICHALB J. Introduction to multi-layer feed-forward neural networks[J]. Chemometrics and Intelligent Laboratory Systems, 1997, 39(1): 43-62. doi:  10.1016/S0169-7439(97)00061-0
    [25] JOHANSSON E M, DOWLA F U, GOODMAN D M. Backpropagation learning for multilayer feed-forward neural networks using the conjugate gradient method[J]. International Journal of Neural Systems, 1991, 2(4): 291-301. doi:  10.1142/S0129065791000261
    [26] SPECHT D F. A general regression neural network[J]. IEEE Transactions on Neural Networks, 1991, 2(6): 568-576. doi:  10.1109/72.97934
    [27] GOULERMA J Y, LIATSIS P, ZENG X J, et al. Density-driven generalized regression neural networks (DD-GRNN) for function approximation[J]. IEEE Transactions on Neural Networks, 2007, 18(6): 1683-1696. doi:  10.1109/TNN.2007.902730
    [28] KHAN J, WEI J S, RINGNE M, et al. Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks[J]. Nature Medicine, 2001, 7(6): 673-679. doi:  10.1038/89044
    [29] 琚存勇, 蔡体久.鄂尔多斯草地生物量估测的GRNN模型实现[J].北京林业大学学报, 2008, 30(增刊1): 296-299. http://j.bjfu.edu.cn/article/id/8516

    JU C Y, CAI T J. Estimation of aboveground biomass using GRNN model in Ordos grassland[J]. Journal of Beijing Forestry University, 2008, 30(Suppl. 1): 296-299. http://j.bjfu.edu.cn/article/id/8516
    [30] CORNE S A, CARVER S J, KUNIN W E, et al. Predicting forest attributes in southeast Alaska using artificial neural networks[J]. Forest Science, 2004, 50(2): 259-276.
    [31] KANDIEMAZ H M, KABA K, AVCI M. Estimation of monthly sunshine duration in turkey using artificial neural networks[J/OL]. International Journal of Photoenergy, 2014(2): 1-9[2016-05-10]. http://dx.doi.org/10.1155/2014/680596.
    [32] SCHOLKOPF B, SUNG K K, BURGES C, et al. Comparing support vector machines with Gaussian kernels to radial basis function classifiers[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2758-2765. doi:  10.1109/78.650102
    [33] DENG N Y, TIAN Y J, ZHANG C H. Support vector machines: optimization based theory, algorithms, and extensions[M]. 1st ed. New York: Chapman & Hall/CRC, 2012.
    [34] ZHONG X M, LI J P, DOU H C, et al. Fuzzy nonlinear proximal support vector machine for land extraction based on remote sensing image[J/OL]. PloS ONE, 2013, 8(7): e69434[2016-05-06]. DOI: 10.1371/journal.pone.0069434.
    [35] SHEN Y, HE Z, WANG Q, et al. Feature generation of hyperspectral images for fuzzy support vector machine classification[C]. Graz: IEEE Instrumentation and Measurement Technology Conference, 2012: 1977-1982.
    [36] 林卓, 吴承祯, 洪伟, 等.基于BP神经网络和支持向量机的杉木人工林收获模型研究[J].北京林业大学学报, 2015, 37(1): 42-47. doi:  10.13332/j.cnki.jbfu.2015.01.008

    LIN Z, WU C Z, HONG W, et al. Yield model of Cunninghamia lanceolata plantation based on back propagation neural network and support vector machine[J]. Journal of Beijing Forestry University, 2015, 37(1): 42-47. doi:  10.13332/j.cnki.jbfu.2015.01.008
    [37] YANG D, LI H, CHEN F, et al. A novel qualitative proof approach of the Dulong-Petit law using general regression neural networks[C]. Ottwa: 2014 IEEE Electronics, Computer and Applications, 2014: 577-580.
    [38] 罗瑜.支持向量机在机器学习中的应用研究[D].成都: 西南交通大学, 2007. http://cdmd.cnki.com.cn/article/cdmd-10613-2008041983.htm

    LUO Y. Study on application of machine learning based on support vector machine[D]. Chengdu: Southwest Jiaotong University, 2007. http://cdmd.cnki.com.cn/article/cdmd-10613-2008041983.htm
    [39] 费海泽, 王鸿斌, 孔祥波, 等.马尾松毛虫发生相关气象因子筛选及预测[J].东北林业大学学报, 2014, 42(1): 136-140. doi:  10.3969/j.issn.1000-5382.2014.01.030

    FEI H Z, WANG H B, KONG X B, et al. Selection and prediction of meteorological factors correlated with Dendrolimus punctatus outbreak[J]. Journal of Northeast Forestry University, 2014, 42(1): 136-140. doi:  10.3969/j.issn.1000-5382.2014.01.030
    [40] 陈梅香.基于SVM和GIS的梨小食心虫预测系统的研究[D].北京: 北京林业大学, 2010. http://cdmd.cnki.com.cn/Article/CDMD-10022-2010031389.htm

    CHEN M X. Studies on prediction system of Grapholitha molesta(Busck) based on support vector machine and geographic information system[D]. Beijing: Beijing Forestry University, 2010. http://cdmd.cnki.com.cn/Article/CDMD-10022-2010031389.htm
    [41] 向昌盛, 周子英, 张林峰.支持向量机在害虫发生量预测中的应用[J].生物信息学, 2011, 9(1): 28-31. doi:  10.3969/j.issn.1672-5565.2011.01.007

    XIANG C S, ZHOU Z Y, ZHANG L F. Application of pest occurrence prediction based on support vector machine[J]. China Journal of Bioinformatics, 2011, 9(1): 28-31. doi:  10.3969/j.issn.1672-5565.2011.01.007
  • [1] 陈国栋, 杜研, 丁佩燕, 郭珂歆, 尹忠东.  基于混合效应模型的新疆天山云杉单木胸径预测模型构建 . 北京林业大学学报, 2020, 42(7): 12-22. doi: 10.12171/j.1000-1522.20190236
    [2] 詹航, 牛树奎, 王博.  北京地区8种树种枯死可燃物含水率预测模型及变化规律 . 北京林业大学学报, 2020, 42(6): 80-90. doi: 10.12171/j.1000-1522.20190370
    [3] 周祎鸣, 张莹, 田晓华, 唐桂辉, 张东旭, 王俊杰, 王馨蕊, 关文彬.  基于积温的文冠果开花物候期预测模型的构建 . 北京林业大学学报, 2019, 41(6): 62-74. doi: 10.13332/j.1000-1522.20180128
    [4] 陈珠琳, 王雪峰.  檀香咖啡豹蠹蛾虫害的树干区域分类研究 . 北京林业大学学报, 2018, 40(1): 74-82. doi: 10.13332/j.1000-1522.20170306
    [5] 王冬至, 张冬燕, 张志东, 黄选瑞.  塞罕坝华北落叶松人工林断面积预测模型 . 北京林业大学学报, 2017, 39(7): 10-17. doi: 10.13332/j.1000-1522.20170072
    [6] 张春华, 和菊, 孙永玉, 李昆.  基于MaxEnt模型的紫椿适生区预测 . 北京林业大学学报, 2017, 39(8): 33-41. doi: 10.13332/j.1000-1522.20170002
    [7] 张怡卓, 苏耀文, 李超, 门洪生.  蒙古栎木材MOR与MOE的近红外光谱预测模型分析 . 北京林业大学学报, 2016, 38(8): 99-105. doi: 10.13332/j.1000-1522.20150505
    [8] 黄建, FalkHuettmann, 郭玉民.  黑龙江流域白头鹤繁殖栖息地选择模型预测 . 北京林业大学学报, 2015, 37(8): 40-47. doi: 10.13332/j.1000-1522.20140178
    [9] 林卓, 吴承祯, 洪伟, 洪滔.  基于BP神经网络和支持向量机的杉木人工林收获模型研究 . 北京林业大学学报, 2015, 37(1): 42-54. doi: 10.13332/j.cnki.jbfu.2015.01.008
    [10] 尤号田, 邢艳秋, 冉慧, 王蕊, 霍达.  基于LiDAR 点云能量信息的樟子松郁闭度反演方法 . 北京林业大学学报, 2014, 36(6): 30-35. doi: 10.13332/j.cnki.jbfu.2014.06.009
    [11] 倪成才, 刘春梅, 丁俊峰, 潘晓茹.  差分生长模型预测误差的分析 . 北京林业大学学报, 2009, 31(4): 1-6.
    [12] 阎伟, 宗世祥, 骆有庆, 曹川健, 李占文, 郭琪林, .  逐步回归模型在油蒿钻蛀性害虫预测中的应用 . 北京林业大学学报, 2009, 31(3): 140-144.
    [13] 张振明, 余新晓, 徐娟, 甘敬, 王小平, 李金海.  不同植被类型土壤碱解氮空间变异性及预测 . 北京林业大学学报, 2009, 31(5): 12-18.
    [14] 余养伦, 于文吉, 张方文.  厚胶合板弹性模量预测模型 . 北京林业大学学报, 2009, 31(1): 130-133.
    [15] 罗旭, 程承旗, 冯仲科, 岳德鹏, 陈晓雪, .  树木直径生长的时间序列及灰色预测模型比较 . 北京林业大学学报, 2008, 30(增刊1): 208-213.
    [16] 余雁, 江泽慧, 王戈, 覃道春, 许忠允.  采谱方式对竹材气干密度近红外预测模型精度的影响 . 北京林业大学学报, 2007, 29(4): 80-83.
    [17] 田勇臣, 刘少刚, 赵刚, 胡健, 李文彬.  森林火灾蔓延多模型预测系统研究 . 北京林业大学学报, 2007, 29(4): 46-53.
    [18] 李文彬, 张俊梅, 撒潮, 王德明, 高凯.  人工林UHF频段电波传播场强预测模型 . 北京林业大学学报, 2007, 29(4): 15-18.
    [19] 崔彬彬, 李贤军, 宗世祥, 赵俊卉, 肖化顺, 陈伟, 刘志军, 王志玲, 曹伟, 黄心渊, 张煜星, 周国模, 李国平, 江泽慧, 雷相东, 刘智, 施婷婷, 张展羽, 于寒颖, 周志强, 杜官本, 徐剑琦, 程金新, 雷霆, 程丽莉, 曹金珍, 关德新, 刘童燕, 张贵, 苏里坦, 吴家森, 骆有庆, 王正, 丁立建, 王正, 张则路, 张彩虹, 王海, 杨谦, 张璧光, 苏淑钗, 李云, 张璧光, 郭广猛, 郝雨, 黄群策, 雷洪, 李云, 张国华, 刘彤, 金晓洁], 吴家兵, 黄晓丽, 贺宏奎, 王勇, 张书香, 张慧东, 常亮, 秦岭, 方群, 秦广雍, 张佳蕊, 许志春, 张大红, 陈晓光, 宋南, 刘大鹏, 姜培坤, 李文军, 周晓燕, 李延军, 高黎, 刘海龙, 蔡学理, 陈燕, 姜静, 姜金仲, 张弥, 冯慧, 苏晓华, 于兴华, 张金桐, 刘建立, 王安志, 张冰玉, 尹伟伦, 陈绪和, 周梅, 王谦, 朱彩霞, 成小芳, 王德国, 陈建伟3, 聂立水, 亢新刚, 张连生, 张勤, 冯大领, 金昌杰, 梁树军, 崔国发, 韩士杰, 胡君艳, 姚国龙.  长白落叶松等几个树种冠幅预测模型的研究 . 北京林业大学学报, 2006, 28(6): 75-79.
    [20] 齐实, 何亚平, 余雁, 徐向舟, 王顺忠, 马尔妮, 周成理, 惠刚盈, 刘秀萍, 姚洪军, 任琴, 耿玉清, 王旭, 武广涛, 李瑞, 徐基良, 宋颖琦, 雷加富, 王清奎, 白新祥, 王尚德, 史军义, 白翠霞, 费本华, 徐海, 杨谦, 俞国胜, 费世民, 周国逸, 崔国发, 张克斌, 康向阳, 杨莉, 石玉杰, 汪思龙, 赵广杰, 王飞, 刘大庆, 云琦, 胡可, 陈丽华, 李代丽, 胡永建, 蒋俊明, 孙阁, 戴思兰, 李忠, 张恒明, 孙阁, 宋维峰, 赵铁蕊, 张波, 陈晓鸣, 秦跟基, 冯宗炜, 徐秉玖, 张红武, 胡艳波, 王百田, 陈秀明, 代力民, 王树森, 高荣孚, 瞿礼嘉, 易传辉, 张慧, 杨晓晖, 朱金兆, 董占地, 王戈, 王亮生, 张德强, 陈华君, 王庆礼, 余英, 朱明东, 金幼菊, 陈峻崎, 乔锋, 闫俊华, 肖玉保, 石雷, 武波, 杨海龙, 陈晓阳, 李镇宇, 杨俊杰, 唐森强, 赵辉, SteveMcNulty, 杨莉.  林木最近距离分布预测模型的研究 . 北京林业大学学报, 2006, 28(5): 18-21.
  • 加载中
图(7) / 表 (6)
计量
  • 文章访问数:  596
  • HTML全文浏览量:  112
  • PDF下载量:  13
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-06-20
  • 修回日期:  2016-10-23
  • 刊出日期:  2017-01-01

基于机器学习的落叶松毛虫发生面积预测模型

doi: 10.13332/j.1000-1522.20160205
    基金项目:

    东北林业大学学术名师支持计划 010602071

    作者简介:

    张文一。主要研究方向:昆虫化学生态。Email:2904261860@qq.com  地址:150040  黑龙江省哈尔滨市和兴路26号东北林业大学林学院

    通讯作者: 严善春,教授,博士生导师。主要研究方向:昆虫化学生态。Email:yanshanchun@126.com  地址:同上
  • 中图分类号: S763.3

摘要: 落叶松毛虫为我国主要害虫之一,其发生严重影响了我国林木生长和森林资源的安全。因此,及时准确地对落叶松毛虫虫害发生趋势进行预测、预报十分必要。虫害的发生受到多种因素的影响,存在复杂的非线性关系,传统的预测方法大多为基于线性的预测,导致其预测效果不够理想。本研究选取当年3月中旬的总蒸发量、上年7月上旬的平均最低气温、当年3月下旬的极端最低气温以及上年11月上旬的平均风速作为自变量,虫害发生面积作为因变量,利用多层前馈神经网络(MLFN)、广义回归神经网络(GRNN)以及支持向量机(SVM)3种机器学习算法对落叶松毛虫发生面积进行预测,并将3种方法的预测结果与传统多元线性回归预测方法相比较。结果表明,机器学习的预测效果均在很大程度上优于多元线性回归预测,并且在3种机器学习算法中,SVM模型的预测效果最好,在30%容忍度下其预测精度可以达到100%,并且该模型还有较低的RMSE值(0.077)和较短的训练时间(1 s)。这表明,机器学习可以应用于生产实际并有效预测虫害发生面积,尤其是SVM模型可以作为一种很好的虫害发生预测手段。

English Abstract

张文一, 景天忠, 严善春. 基于机器学习的落叶松毛虫发生面积预测模型[J]. 北京林业大学学报, 2017, 39(1): 85-93. doi: 10.13332/j.1000-1522.20160205
引用本文: 张文一, 景天忠, 严善春. 基于机器学习的落叶松毛虫发生面积预测模型[J]. 北京林业大学学报, 2017, 39(1): 85-93. doi: 10.13332/j.1000-1522.20160205
ZHANG Wen-yi, JING Tian-zhong, YAN Shan-chun. Studies on prediction models of Dendrolimus superans occurrence area based on machine learning[J]. Journal of Beijing Forestry University, 2017, 39(1): 85-93. doi: 10.13332/j.1000-1522.20160205
Citation: ZHANG Wen-yi, JING Tian-zhong, YAN Shan-chun. Studies on prediction models of Dendrolimus superans occurrence area based on machine learning[J]. Journal of Beijing Forestry University, 2017, 39(1): 85-93. doi: 10.13332/j.1000-1522.20160205
  • 落叶松毛虫(Dendrolimus superans)属鳞翅目枯叶蛾科,在我国主要分布于北京、东北、内蒙古以及新疆北部地区,是我国东北林区的主要害虫之一。落叶松毛虫虫害发生时部分针叶被吃光,严重时会导致落叶松林成片枯死[1]。据不完全统计, 我国落叶松毛虫每年发生面积约达200万hm2~280万hm2, 严重地影响了林木生长和森林资源的安全,同时也使得木材和林产品产量急剧下降,对林业生产造成巨大损失[2]。如果能够有效的对害虫发生趋势做出预测,就可以提早掌握虫害的发生动态,提前预备和采取相应的防治措施,更有效地控制灾害,进而减少虫害造成的损失。因此,研究和发展生物技术和信息技术,及时准确地对落叶松毛虫发生趋势进行预测预报,对实现森林灾害综合管理模式和林业经济的可持续发展具有非常重要的意义[3]

    早在20世纪50年代初期我国就开始了对危害较严重的病虫害(包括松毛虫)进行了调查研究,并在各大城市建立了相应的病虫害测报站。20世纪80年代至90年代, 我国森林病虫害防治技术迅速发展,包括多元统计分析在内的数学理论及模型被广泛应用于林业虫害的预测预报中,如薛贤清[4]、梁其伟[5]曾分别利用逐步回归以及逐步判别法来预测马尾松毛虫虫害的发生;李天生等[6]应用双重筛选逐步回归法对气象因子与松毛虫虫害发生关系进行分析;吴敬等[7]通过概率回归估计法建立数量化模型对松毛虫发生面积及危害程度进行预测。在此期间,由于计算机的不断发展,许多基于计算机的病虫害管理系统及专家系统也应运而生,如叶文虎等[8]研究建立的松毛虫综合管理信息系统;王淑芬等[9]研发的马尾松毛虫防治决策专家系统等;进入21世纪,随着科技的进步与发展,林业科技信息化建设得到推进,包括“3S技术”等许多科学有效的方法被应用于病虫害的预测中,如王霓虹等[10]以松毛虫为研究样本研发的基于WebGIS的森林病虫害预测预报专家系统;高倩[11]利用Logistic回归模型对落叶松毛虫虫害进行预测等,令我国森林病虫害的预测预报工作得到了较大改善,也极大地推动了我国森林病虫害测报技术向着科技化、现代化的方向发展。

    对害虫发生趋势预测的传统方法主要有期距预测、有效积温预测、多元线性回归预测、以及有效基数预测等[12-13]。由于这些预测方法都属线性预测,而虫害的发生受气候、天敌以及林相等多种因素的影响,是一种复杂的非线性关系[13],因而用线性预测方法预测害虫发生趋势不科学。寻求一种合理且更为准确的预测方法就显得尤为重要。

    近年来机器学习方法在预测、识别及数据挖掘方面研究成果较好,此类方法具有泛化能力,可以通过给定的数据进行自我学习,适合处理单因变量、多自变量且关系比较复杂的非线性问题,并且预测准确度较高[14]。本研究运用广义回归神经网络(GRNN)、多层前馈神经网络(MLFN)以及支持向量机(SVM)3种机器学习方法对落叶松毛虫发生面积进行预测,并与传统的多元线性回归预测方法进行比较,以确定机器学习在虫害预测中的可行性,以期寻求对于落叶松毛虫发生趋势预测的有效方法。

    • 本研究所采用的28组虫害及气象数据来源于杨淑香等的研究[15], 其中从1985—2012年的落叶松毛虫虫害资料来源于内蒙古呼伦贝尔市森林病虫害防治站,从1984—2012年每旬的气象资料来源于呼伦贝尔市气象局。

    • 预报因子的选择直接影响着病虫害发生面积的预测准确率,因而在进行预测之前将搜集到的各类气象因子(包括上年6月开始到当年5月的旬平均温度、旬平均最高温度、旬平均最低温度、旬极端最高温度、旬极端最低温度、旬相对湿度、旬蒸发量、旬降水量、旬日照和年有效积温)作为候选预报因子,利用相关法筛选出其中的相关因子,再利用逐步回归法选出与因变量关系最密切的因子作为预报因子来构建虫害预测模型。最终筛选得出落叶松毛虫发生面积的预报因子为:当年3月中旬的总蒸发量(X1)、上年7月上旬的平均最低气温(X2)、当年3月下旬的极端最低气温(X3)、上年11月上旬的平均风速(X4)。这些预报因子的选择也与落叶松毛虫的生活史吻合,由于越冬幼虫大部分于3月下旬出蛰,因此,3月下旬的最低气温对幼虫的出蛰率有直接影响。3月中旬的总蒸发量则是对幼虫体内水分变幅存在较大影响,同时,上年7月和11月是老熟幼虫结茧化蛹和越冬的时期,风速会对越冬后的迁飞造成影响,进而影响松毛虫的分布范围。

    • 多元线性回归是虫害预测常用的传统建模方法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,以计算方程为基础研究变量之间的相关关系[16]。多元线性回归方程的数学函数表达式一般为:

      $$ Y={{\alpha }_{0}}+{{\alpha }_{1}}{{X}_{1}}+{{\alpha }_{2}}{{X}_{2}}+\cdots +{{\alpha }_{n}}{{X}_{n}} $$ (1)

      式中:Y表示虫害发生面积;α0代表常数;α1, α2, …, αn为回归系数;X1, X2, …, Xn代表预报因子(即本文中选取的蒸发量、平均最低气温等)。

    • 人工神经网络(Artificial neural network,ANN)是一种旨在模仿人脑结构及其功能的信息处理系统,常用于解决数据量较大且关系较复杂的非线性问题,它与遗传算法、专家系统并称为人工智能的3大技术[17]。人工神经网络有很好的适应学习能力、自组织能力以及容错、容差率,在分类、优化以及预测方面应用较为广泛[18-20]

      根据神经网络内部信息的传递方向可分为两类,反馈型网络和前馈型网络,其中前馈型网络中的BP神经网络在病虫害预测方面应用较多,然而根据文献[21-23]得知,BP神经网络需要10倍于连接权的样本量才能保证预测结果的准确性,广义回归神经网络(General regression neural network,GRNN)仅需要1.0%的样本量就可以获得与BP网络同样的预测效果。由于本研究中虫害数据量较少,所以本研究采用GRNN对落叶松毛虫发生面积进行预测。同时,基于选用预测模型的多样性以及所用预测软件的易用性,本研究还利用多层前馈神经网络(Multilayer feed-forward neural networks,MLFN)进行预测。

    • 多层前馈神经网络(MLFN)利用在实际中应用较广的反向传播学习算法进行训练[24-25]。一个MLFN包括顺序排列的神经元(图 1),其中第一层称为输入层,最后一层称为输出层,在这两层中间还有隐含层。每个在一个特定层的神经元都与下一层的所有神经元相连接。第i层和第j层神经元间的联系通过权重ωij和第i层神经元的阈值ϑi来刻画(图 2)。第i层神经元的输出值xi通过公式(2)、(3)和(4)计算得到。

      图  1  MLFN原理图

      Figure 1.  Structure of the MLFN

      图  2  神经元ij之间的关系

      Figure 2.  Connection between neurons i and j

      $$ {{x}_{i}}=f({{\xi }_{i}}) $$ (2)
      $$ f({{\xi }_{i}})=\frac{1}{1+\exp (-{{\xi }_{i}})} $$ (3)
      $$ {{\xi }_{i}}={{\vartheta }_{i}}+\sum\limits_{j\in {{r}_{i}}-1}{{{\omega }_{ij}}{{x}_{j}}} $$ (4)

      式中:ξi代表第i层神经元;函数f(ξi)是传递函数(公式(2)之和使得所有神经元j将信号传输到第i层神经元);ωij为权重;ϑi为阈值;ri-1为神经元i的前一层神经元的子集。

      监督学习的过程会通过改变阈值ϑi及权重ωij使计算值和所求的输出值之间的平方之和差异最小化,这些均通过目标函数E的最小值实现,如公式(5),式中x0和${{\widehat{x}}_{0}}$是由输出神经元的计算和所求范围以及所有输出神经元运行总和组成的向量。

      $$ E=\sum{\frac{1}{2}{{({{x}_{0}}-{{\widehat{x}}_{0}})}^{2}}} $$ (5)
    • 广义回归神经网络(GRNN)最早由Specht提出[26],一个完整的GRNN有4层,包括:输入层、模式层、求和层和输出层(图 3)[27-31]

      图  3  GRNN原理图

      Figure 3.  Structure of the GRNN

      1) 输入层:输入层保持其相应的自动模式,直接将输入的变量传递到模式层。

      2) 模式层:在模式层中其神经元数目等于训练样本的数目,并且不同的样本对应的神经元也不同。在这一层神经元的传递函数公式如下。

      $$ {{p}_{i}}=\exp \left[ \frac{-{{(X-{{X}_{i}})}^{\text{T}}}(X-{{X}_{i}})}{2{{\sigma }^{2}}} \right](i=1, 2, \cdots , n) $$ (6)

      式中:pi为模式层第i个神经元的输出向量;X为网络输入变量;Xi为第i个神经元对应的学习样本;σ为光滑因子。

      3) 求和层:求和层对模式层中各神经元的输出进行算术求和以及加权求和,传递函数如公式(7)、(8):

      $$ {{S}_{\text{D}}}=\sum\limits_{i=1}^{n}{{{p}_{i}}} $$ (7)
      $$ S=\sum\limits_{i=1}^{n}{{{y}_{ij}}{{p}_{i}}}\ \ \ (j=1, 2, \cdots , k) $$ (8)

      式中:SD为算术求和;S为加权求和;yij为模式层中第i个神经元与求和层中第j个求和神经元之间的权重值; k为输出层神经元的数目。

      4) 输出层:将求和层中两类神经元的输出相除可得到输出层中各神经元的输出结果。

      $$ {{y}_{i}}=\frac{S}{{{S}_{\text{D}}}}\ \ (j=1, 2, \cdots , k) $$ (9)
    • 支持向量机(Support vector machine,SVM)由训练集和核函数完全刻画,在模型的复杂性和学习能力之间以有限的样本信息作为基础。在线性可分二元分类中,通过寻找最优超平面,把所有样品通过最大间隔进行分类,是支持向量机的基本原理[32-36]。最优超平面不仅有助于提高模型的预测能力,也有助于减少偶尔出现的错误分类。图 4说明了最优超平面,用“红色”代表的样本类型1,“蓝色”代表样本类型-1。

      图  4  支持向量确定最优超平面的位置

      Figure 4.  Support vectors determining the position of optimal hyperplane

      SVM可以很好地应用于函数拟合问题中,本工作采用支持向量回归算法,对线性问题求得回归式:

      $$ Y=f(x)=\sum\limits_{i=1}^{n}{({{T}_{i}}-T_{i}^{*})({{x}_{i}}, x)}+b $$ (10)

      式中:TiTi*为拉格朗日乘子;xi为待预测因子向量;x为支持向量的样本子向量;b为偏置量。

      对非线性问题, 要用核函数方法将原始数据映照到高维特征空间, 使其转化为线性问题求解, 可求得回归式:

      $$ Y=f(x)=\sum\limits_{i=1}^{n}{({{T}_{i}}-T_{i}^{*})K({{x}_{i}}, x)}+b $$ (11)

      式中:K(xi, x)为支持向量的核函数。

    • 由于机器学习对数值的预测完全基于现有的数据,因此,构建模型时要将数据分成两部分:训练集和测试集。训练集用于帮助模型对数据间规律进行自我学习,测试集则用于检验经过训练集训练后的模型。因此,选取80%的虫害数据组作为训练集,20%虫害数据组作为测试集。同时,为保证建立模型的合理性,训练集与测试集中数据为随机选取。本研究中随机选取了1992、1999、2000、2007、2011和2012年的落叶松毛虫虫害面积数据做为测试集,剩余年份的落叶松毛虫虫害面积数据为训练集。

      采用SPSS18.0软件进行多元线性回归分析。利用Neural Tools软件(试用版,Palisade公司,NY,USA)建立人工神经网络(ANN)模型,选择其中的GRNN及MLFN模型进行构建。采用Matlab软件建立SVM模型。并以均方根误差(Root mean square error,RMSE)作为指标来衡量多元线性回归、SVM和ANN的性能。RMSE定义如下:

      $$ \text{RMSE=}\sqrt{\frac{\sum\limits_{i=1}^{n}{{{({{X}_{\text{obs}, i}}-{{X}_{\text{model}, i}})}^{2}}}}{n}} $$ (12)

      式中:Xobs, i为实际值;Xmodel, i为预测值;n为预测样本数。

    • 利用SPSS软件将随机选取的训练样本带入多元线性回归基本方程(式(1))中,求得落叶松毛虫发生面积回归方程,其常量与回归系数如表 1所示。

      表 1  多元线性回归系数表

      Table 1.  Coefficients of multiple regression model

      模型
      Model
      非标准化系数
      Non standardized coefficient
      标准系数
      Standard coefficient
      tP
      系数
      Coefficient
      标准误差
      Standard error
      α010.7192.4944.2970
      X10.1630.0520.5463.1510.006
      X2-0.6220.138-0.789-4.5170
      X30.1450.050.5032.8900.01
      X4-0.6110.35-0.256-1.7460.099
      注:α0为常量,X1为蒸发量,X2为平均最低气温,X3为极端最低气温,X4为平均风速。Notes: α0 means constant variable, X1 means evaporation capacity, X2 means average minimum temperature, X3 means extreme minimum temperature, X4 means average wind speed.

      表 1可知,常量α0=10.719,蒸发量X1的系数为0.163,平均最低气温X2的系数为-0.622,极端最低气温X3的系数为0.145,平均风速X4的系数为-0.611。由此得到多元线性回归方程为:

      $$ Y=10.719+0.163{{X}_{1}}-0.622{{X}_{2}}+0.145{{X}_{3}}-0.611{{X}_{4}} $$

      同时根据模型汇总表(表 2)显示,调整后R2 =0.594,说明该方程拟合度较低,通过该方程对虫害预测误差将会较大,也表明虫害的发生与气候因素之间可能并非简单地线性关系。

      表 2  多元线性回归模型汇总表

      Table 2.  Summary sheet of multiple regression model

      模型
      Model
      RR2调整R2
      Adjusted R2
      标准估计的误差
      Standard estimate error
      10.8190.6710.5940.910 51

      利用该多元线性回归方程对测试样本进行预测,预测结果如表 3所示。

      表 3  多元线性回归预测结果

      Table 3.  Predicting results of multiple regression model

      年份
      Year
      实际值/103
      hm2Actual value/103
      ha
      预测值/103
      hm2Predicting value/103 ha
      19920.8000.90
      19990.6670.49
      20000.733-0.63
      20071.0001.29
      20110.760-0.16
      20120.8670.15

      表 3可知,多元线性的预测效果并不理想,其预测结果与实际值都有较大差距。

    • Neural Tools软件利用随机选取的训练样本进行MLFN及GRNN模型的构建,并令软件自动搜索最优模型。用训练后的模型对6组测试样本的发生面积进行预测,检验其预测效果。预测结果如表 4所示。

      表 4  ANN预测结果

      Table 4.  Predicting results of ANN

      年份
      Year
      实际值/103 hm2
      Actual value/103 ha
      MLFN模型预测值/103 hm2
      Predicting value of MLFN/103 ha
      GRNN模型预测值/103 hm2
      Predicting value of GRNN/103 ha
      19920.8000.84(Good)0.52(Bad)
      19990.6670.99(Bad)0.13(Bad)
      20000.7330.03(Bad)0.69(Good)
      20071.0001.37(Bad)1.01(Good)
      20110.7600.30(Bad)0.66(Good)
      20120.8670.74(Good)1.00(Good)
      RMSE0.400 20.256 5
      注:30%容忍度下预测结果准确为Good,不准确为Bad。下同。Notes: under the tolerance of 30%, the precision of predicting results was labeled as Good, or as Bad. The same below.

      表 4可知,MLFN的RMSE为0.400 2,GRNN的RMSE为0.256 5。并且,在30%的容忍度[37]下,MLFN对6组测试样本中的两组做到了准确预测,预测准确率为33.33%。GRNN对6组测试样本中的4组做到了准确预测,预测准确率达到66.67%。由此看出,相较于MLFN,GRNN的预测准确度更高。根据图 5a图 6a相比较可以看出GRNN的预测结果与实际结果线更为接近,其预测更准确。同时,根据图 5bc图 6bc残差图显示,GRNN的异常点较少,其拟合效果更好。这都说明,GRNN的预测效果优于MLFN。

      图  5  MLFN预测结果

      Figure 5.  Predicting results of MLFN model

      图  6  GRNN预测结果

      Figure 6.  Predicting results of GRNN model

    • Matlab软件利用选取的训练样本建立SVM模型,再利用6组测试样本对建立的SVM模型进行测试,测试结果如表 5

      表 5  SVM预测结果

      Table 5.  Predicting results of SVM

      年份
      Year
      实际值/103 hm2
      Actual value/103 ha
      预测值/103 hm2
      Predicting value/103 ha
      19920.8000.767(Good)
      19990.6670.770(Good)
      20000.7330.691(Good)
      20071.0001.101(Good)
      20110.7600.792(Good)
      20120.8670.971(Good)
      RMSE0.077

      根据表 5可知:SVM的RMSE为0.077,并且在30%容忍度下SVM模型对6组测试样本都达到了准确预测,预测准确率为100%。同时,图 7a中的点代表SVM模型预测结果,对角线代表实际虫害面积,图 7a表明SVM的预测结果与6组测试样本中的实际虫害面积均较为接近,并且根据图 7bc可以看出SVM所描绘的点均围绕残差等于零的直线上下随机散布,这都说明SVM模型对虫害面积的预测有较好的效果。

      图  7  SVM模型预测结果

      Figure 7.  Predicting results of SVM model

    • 将本研究中用到的4种预测方法进行对比,结果如表 6所示。

      表 6  不同预测方法的预测效果对比

      Table 6.  Comparison in predicting results among varied predicting models

      项目
      Item
      实际值/103 hm2
      Actual value/103 ha
      多元线性回归
      Multiple regression model
      MLFN模型
      MLFNmodel
      GRNN模型
      GRNNmodel
      SVM模型
      SVMmodel
      年份
      Year
      19920.8000.900.840.080.77
      19990.6670.490.990.800.77
      20000.733-0.630.030.130.69
      20071.0001.291.371.271.10
      20110.760-0.160.300.470.79
      20120.8670.150.740.600.97
      RMSE预测准确率
      Forecasting accuracy
      0.747 40.400 20.256 50.077 0
      33.33%66.67%100%
      训练时间
      Training time
      0:00:560:00:010:00:01

      根据表 6的对比结果中可以看出,3种机器学习方法的RMSE值均较大程度的低于传统多元线性回归预测的RMSE值,其中SVM模型的预测效果最好,其RMSE值最低,仅为0.077,并且在30%容忍度下其预测准确率高于MLFN及GRNN模型,达到100%,同时,SVM模型的训练时间较短,仅为1 s。因此,SVM模型对于落叶松毛虫虫害的预测更有实际应用的前景。

    • 本研究结果显示,利用传统的多元线性回归方法对虫害面积的预测拟合度较低,预测误差较大。相较之下,3种机器学习算法在预测虫害发生面积时表现的更为优秀,其中SVM模型的预测效果最出色,其RMSE值最低,并且在30%的容忍度下该模型的预测准确度达到100%,在预测时间方面,SVM模型较其余预测模型也具有一定优势。另外,本研究中还采用了MLFN和GRNN两种人工神经网络模型,由于人工神经网络模型更多的应用于处理数据样本较大的运算,而对于预测虫害发生面积这类的小样本问题时则容易出现过拟合现象,会导致预测效果出现较大偏差。其中,MLFN模型训练时间较长,并且其对部分年份虫害发生面积的预测偏差较大,导致预测准确率及RMSE均较低,并不适用于虫害的预测。GRNN模型虽然可以处理样本量较少的问题,然而其对于虫害的预测准确率及RMSE值均低于SVM模型。相较之下,SVM模型则更适合处理小样本问题[38]。因而,不论是与传统的多元线性回归相比较还是与人工神经网络模型相比较,SVM模型均表现的更为优秀,更适合应用到实际对落叶松毛虫虫害的预测中。

      先前的研究中,较多采用多元统计分析对虫害发生进行预测,由于虫害的发生具有非线性变化规律,各类影响因子间相互关联且对虫害的发生影响十分复杂[39],因而,传统的回归方法无法很好地表达自变量与因变间的关系。前人的研究结果多为一个虫害发生的范围或发生的程度,无法较精确显示虫害的发生情况,预测准确率往往也存在较大波动。因此,利用传统的线性数学模型对虫害发生进行预测存在一定的局限性。本研究克服了回归分析的不足,利用机器学习对虫害发生进行预测,较大程度的提高了预测的准确性。相关研究中,陈梅香[40]曾利用SVM模型与BP神经网络模型对梨小食心虫的发蛾高峰期和发生程度进行预测,结果表明支持向量机的预测准确率较高,且均方误差较低,此方法更有利于提高梨小食心虫发生期与发生程度的预测准确率。向昌盛等[41]也发现在对粘虫发生量进行预测时,SVM模型的预测效果更好,它可以提高害虫发生量的预测精度,更适合于非线性、小样本的害虫发生量预测。他们的研究都表明,机器学习可以对虫害进行有效的预测,且支持向量机对虫害的预测效果较好。

      虽然机器学习在预测方面有着很好的应用,然而现阶段在林业虫害预测上的应用仍不够广泛,究其原因是由于林业虫害的发生受到多种因素的影响,且相关数据的收集较为困难。因而要将机器学习更好的应用到林业虫害的预测中去不仅需要更为完备的数据样本作为基础,还需要我们对于机器学习更为深入的研究与探索。

参考文献 (41)

目录

    /

    返回文章
    返回