高级检索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于随机森林算法的落叶松−云冷杉混交林单木胸径生长预测

欧强新 雷相东 沈琛琛 宋国涛

欧强新, 雷相东, 沈琛琛, 宋国涛. 基于随机森林算法的落叶松−云冷杉混交林单木胸径生长预测[J]. 北京林业大学学报, 2019, 41(9): 9-19. doi: 10.13332/j.1000-1522.20180266
引用本文: 欧强新, 雷相东, 沈琛琛, 宋国涛. 基于随机森林算法的落叶松−云冷杉混交林单木胸径生长预测[J]. 北京林业大学学报, 2019, 41(9): 9-19. doi: 10.13332/j.1000-1522.20180266
Ou Qiangxin, Lei Xiangdong, Shen Chenchen, Song Guotao. Individual tree DBH growth prediction of larch-spruce-fir mixed forests based on random forest algorithm[J]. Journal of Beijing Forestry University, 2019, 41(9): 9-19. doi: 10.13332/j.1000-1522.20180266
Citation: Ou Qiangxin, Lei Xiangdong, Shen Chenchen, Song Guotao. Individual tree DBH growth prediction of larch-spruce-fir mixed forests based on random forest algorithm[J]. Journal of Beijing Forestry University, 2019, 41(9): 9-19. doi: 10.13332/j.1000-1522.20180266

基于随机森林算法的落叶松−云冷杉混交林单木胸径生长预测

doi: 10.13332/j.1000-1522.20180266
基金项目: 国家自然科学基金(31870623)
详细信息
    作者简介:

    欧强新,博士。主要研究方向:森林生长模型与模拟。Email:jonsinou@foxmail.com 地址:100091 北京市海淀区香山路东小府2号中国林业科学研究院资源信息研究所

    通讯作者:

    雷相东,博士,研究员。主要研究方向:森林生长模型与模拟。Email:xdlei@ifrit.ac.cn 地址:同上

  • 中图分类号: S758.5

Individual tree DBH growth prediction of larch-spruce-fir mixed forests based on random forest algorithm

  • 摘要: 目的单木生长受气候、林分等多种因子影响,需要利用适当的方法厘清气候以及林分中影响林木生长的主导因子。随机森林等机器学习方法提供了一种新的途径,需要检验利用随机森林算法分析气候和林分因子对林木生长影响的可靠性,为森林生长收获预估提供新的方法。方法以吉林省汪清林业局20块落叶松−云冷杉混交林固定样地25年(1986—2010年)间连续调查数据作为研究材料,候选气候和林分因子52个,利用随机森林算法建立了包含气候和林分的单木胸径生长模型,分析气候和林分因子对单木胸径年平均生长量的影响:基于52个超参数组合(决策树数目ntree = 1 000、决策树每个结点随机选择的预测变量个数mtry = {1, 2, ···, 52})构建了52个随机森林模型,利用10折交叉验证法分别训练和评估52个随机森林模型;基于完整数据集,利用最优随机森林模型分析自变量对单木胸径年平均生长量影响的相对重要性以及偏依赖关系。结果ntree = 1 000、mtry = 12所对应的模型是52个模型中具有最佳泛化能力的模型,该模型具有最大的交叉验证决定系数R2cvR2cv = 0.54),以及最小的交叉验证均方根误差RMSEcv、交叉验证平均绝对偏差MAEcv和交叉验证相对均方根误差rRMSEcv(RMSEcv = 0.14 cm、MAEcv = 0.10 cm、rRMSEcv = 50%)。单木胸径年平均生长量受林分因子的影响极大,相对重要性超过80.00%。8个林分因子中,大于对象木的林木断面积之和BAL对单木胸径年平均生长量影响最大,林分每公顷株数N对单木胸径年平均生长量影响最小,其他因子对单木胸径年平均生长量影响介于两者之间;单木胸径年平均生长量随BAL、林分每公顷断面积BA、N以及林分断面积平均胸径Dg的增加而下降,随对象木胸径与林分断面积平均胸径之比RD、林木期初胸径D0以及对象木胸径与林分中最大林木胸径之比DDM的增加而增加。单木胸径年平均生长量受气候因子的影响较小,相对重要性低于20.00%。44个气候因子对单木胸径年平均生长量的影响均较小(相对重要性均 < 1%),其中,生长季平均降水量(4—9月)与年均降水量之比Pratio、年总太阳辐射时长Asr、生长季平均降水量(4—9月)与生长季相对湿度(4—9月)之比Gspgsrh以及生长季太阳辐射时长(4—9月)Gssr是前4个相对重要的变量。结论随机森林模型能够较好地解析各变量与单木胸径年平均生长量之间复杂的关系,单木胸径年平均生长量受林分因子的影响极大,而受气候因子的影响较小。总体而言,在局部尺度上,林分因子是影响单木胸径生长的主导因子,而气候因子对单木胸径生长的解释能力有限。随机森林模型具有一定的泛化能力和统计可靠性,产生的变量重要性和偏依赖图具有合理的林学意义。
  • 图  1  不同mtry所对应的随机森林模型10折交叉验证评价指标

    图中黑色圆点为平均值,误差线为标准差;mtry表示树节点随机抽选的变量个数。The black dots in the graph are average, and the error bars are standard error;mtry is the number of predictive vaviables randomly sampled at each split.

    Figure  1.  Ten-fold cross validation evaluation index of different random forest models in accordance with mtry values

    图  2  mtry为12时所对应的随机森林模型在各折测试集上的模型表现

    图中参考线(虚线)为相应评价指标的平均值。The reference lines (dotted line) in the graph are average of corresponding evaluation index.

    Figure  2.  Performance of random forest model with the vaule of mtry as 12 based on each-fold test set

    图  3  基于两种重要性度量方法的各自变量对单木胸径年平均生长量影响的相对重要性得分

    TreeSpe_Code: 树种代码 Tree species code; Amaxt: 年最高气温 Maximum annual temperature; Amint: 年最低气温Minimum annual temperature; Amt: 年平均气温Mean annual temperature; Gsdd5: 生长季大于 5 ℃积温 (4—9月) The accumulated temperature is greater than 5 ℃ in growing season (April to September); Gsmaxt: 生长季最高气温 (4—9月) Maximum temperature in growing season (April to September); Gsmint: 生长季最低气温 (4—9月) Minimum temperature in growing season (April to September); Maxtwm: 最热月的最高气温 (7月) The highest temperature in the hottest month (July); Mmincm: 最冷月的最低气温 (1月) The lowest temperature of the coldest month (January); Mtcm: 最冷月的平均气温(1月) The mean temperature of the coldest month (January); Mtwm: 最热月的平均气温(7月) The mean temperature of the hottest month (July); Gsp: 生长季平均降水量(4—9月) Average precipitation in growing season (April to September); Map: 年均降水量 Mean annual precipitation; Msp: 月总降水量Monthly total precipitation; Sp: 夏季降水量(6—8月) Summer precipitation (June to August); Gsrh: 生长季相对湿度 (4—9月) Relative humidity in growing season (April to September); Marh: 年平均相对湿度 Annual mean relative humidity; Asr: 年总太阳辐射时长Annual total solar radiation duration; Gssr: 生长季太阳辐射时长 (4—9月) Solar radiation duration in growing season (April to September); Ahm: 1 000 × ((Amt + 10)/Map); Shm: Gsmaxt + Maxtwm; Amaxtmap: Amaxt/Map; Amtmap: Amt/Map; Gsmaxtgsrh: (Gsmaxt × Gsrh)/1 000; Gsmintgsp: Gsmint/Gsp; Gsmintgsrh: Gsmint/Gsrh; Gsmintmap: Gsmint/Map; Gspdd5: (Gsp × Gsdd5)/1 000; Gspgsrh: Gsp/Gsrh; Gspmtcm: (Gsp × Mtcm)/1 000; Gspgsmint: (Gsp × Gsmint)/1 000; Gsrhgsmint: (Gsrh × Gsmint)/1 000; Mapdd5: (Map × Gsdd5)/1 000; Mapgsmint: (Map × Gsmint)/1 000; Mapmtcm: (Map × Mtcm)/1 000; Maxtwmsp: Maxtwm/Sp; Mtcmgsp: Mtcm/Gsp; Mtcmmap: Mtcm/Map; Pratio: Gsp/Map.

    Figure  3.  Relative importance scores of each independent variable affecting individual tree DBH growth based on two methods of variable importance calculation

    图  4  林分因子(A ~ H)和部分气候因子(I ~ L)对单木胸径年平均生长量影响的偏依赖关系图

    Broadleaf 1: 慢阔Slow growing broadleaved tree; Broadleaf 2: 中阔Medium growing broadleaved tree; Fir: 冷杉Abies nephrolepis; Larch: 落叶松Larix olgensis; Pine: 红松Pinus koraiensis; Spruce: 云杉Picea jezoensis var. komarovii

    Figure  4.  Partial dependence plots of stand variables (A−H) and partial climatic variables (I−L) affecting individual tree DBH growth

    表  1  林分及单木因子统计

    Table  1.   Summary statistics of stand variables

    因子
    Variable
    平均值
    Mean
    标准差
    Standard deviation
    最小值
    Minimum
    最大值
    Maximum
    说明
    Description
    ΔD/cm 0.28 0.21 0.00 2.04 1986—2010年间任意5年间隔单木的胸径年均生长量
    Individual tree mean annual DBH increment within any 5-year intervals from 1986 to 2010
    D0/cm 17.44 6.51 5.00 51.00 林木期初胸径
    Initial tree DBH
    BAL/m2 17.70 8.29 0.00 37.29 大于对象木的林木断面积之和
    Sum of basal area larger than the subject tree
    RD 0.95 0.34 0.24 2.74 对象木胸径与林分断面积平均胸径之比
    Ratio of DBH of a subject tree to stand average DBH
    DDM 0.47 0.18 0.13 1.00 对象木胸径与林分中最大林木胸径之比
    Ratio of DBH of a subject tree to the maximal DBH
    N/(株·hm− 2
    N/(tree·ha− 1)
    1 017 245 395 1 585 林分每公顷株数
    Number of trees per hectare
    BA/(m2·hm− 2
    BA/(m2·ha− 1)
    26.26 5.42 14.22 37.37 林分每公顷断面积
    Stand basal area per hectare
    Dg/cm 18.31 2.13 13.01 22.95 林分断面积平均胸径
    Quadratic mean DBH
    下载: 导出CSV

    表  2  部分气候因子统计表

    Table  2.   Summary statistics of selected climate variables

    因子
    Variable
    平均值
    Mean
    标准差
    Standard deviation
    最小值
    Minimum
    最大值
    Maximum
    说明
    Description
    Pratio 0.84 0.009 7 0.82 0.85 生长季平均降水量(4—9月)与年均降水量之比
    Ratio of average precipitation in growing season (April to September) to mean annual precipitation
    Asr/h 2 381.32 34.57 2 316.51 2 442.43 年总太阳辐射时长
    Annual total solar radiation duration
    Gspgsrh/mm 0.069 2 0.004 1 0.062 8 0.074 5 生长季平均降水量(4—9月)与生长季相对湿度(4—9月)之比
    Ratio of average precipitation in growing season (April to September) to relative humidity in growing season (April to September)
    Gssr/h 1 241.32 28.08 1 190.61 1 278.48 生长季太阳辐射时长(4—9月)
    Solar radiation duration in growing season (April to September)
    Amt/℃ 3.09 0.28 2.42 3.47 年平均气温
    Mean annual temperature
    Map/mm 509.27 16.22 476.84 536.52 年均降水量
    Mean annual precipitation
    下载: 导出CSV
  • [1] Jiang X Y, Huang J G, Cheng J, et al. Interspecific variation in growth responses to tree size, competition and climate of western Canadian boreal mixed forests[J]. Science of the Total Environment, 2018, 631−632: 1070−1078. doi:  10.1016/j.scitotenv.2018.03.099
    [2] Clark J S, Bell D M, Kwit M C, et al. Competition-interaction landscapes for the joint response of forests to climate change[J]. Global Change Biology, 2014, 20(6): 1979−1991. doi:  10.1111/gcb.12425
    [3] Rollinson C R, Kaye M W, Canham C D. Interspecific variation in growth responses to climate and competition of five eastern tree species[J]. Ecology, 2016, 97(4): 1003−1011.
    [4] Matsushita M, Takata K, Hitsuma G, et al. A novel growth model evaluating age-size effect on long-term trends in tree growth[J]. Functional Ecology, 2015, 29(10): 1250−1259. doi:  10.1111/1365-2435.12416
    [5] Martínez-Vilalta J, López B C, Loepfe L, et al. Stand- and tree-level determinants of the drought response of Scots pine radial growth[J]. Oecologia, 2012, 168(3): 877−888. doi:  10.1007/s00442-011-2132-8
    [6] Messaoud Y, Chen H Y H. The influence of recent climate change on tree height growth differs with species and spatial environment[J]. Plos One, 2011, 6(2): e14691. doi:  10.1371/journal.pone.0014691
    [7] Subedi N, Sharma M. Climate-diameter growth relationships of black spruce and jack pine trees in boreal Ontario, Canada[J]. Global Change Biology, 2013, 19(2): 505−516. doi:  10.1111/gcb.12033
    [8] Castagneri D, Nola P, Motta R, et al. Summer climate variability over the last 250 years differently affected tree species radial growth in a mesic Fagus-Abies-Picea old-growth forest[J]. Forest Ecology and Management, 2014, 320: 21−29. doi:  10.1016/j.foreco.2014.02.023
    [9] Chen L, Huang J G, Stadt K J, et al. Drought explains variation in the radial growth of white spruce in western Canada[J]. Agricultural and Forest Meteorology, 2017, 233: 133−142. doi:  10.1016/j.agrformet.2016.11.012
    [10] Cortini F, Filipescu C N, Groot A, et al. Regional models of diameter as a function of individual tree attributes, climate and site characteristics for six major tree species in Alberta, Canada[J]. Forests, 2011, 2(4): 814−831. doi:  10.3390/f2040814
    [11] Latreille A, Davi H, Huard F, et al. Variability of the climate-radial growth relationship among Abies alba trees and populations along altitudinal gradients[J]. Forest Ecology and Management, 2017, 396: 150−159. doi:  10.1016/j.foreco.2017.04.012
    [12] Toledo M, Poorter L, Peña-Claros M, et al. Climate is a stronger driver of tree and forest growth rates than soil and disturbance[J]. Journal of Ecology, 2011, 99(1): 254−264. doi:  10.1111/j.1365-2745.2010.01741.x
    [13] Ashraf M I, Zhao Z Y, Bourque C P A, et al. Integrating biophysical controls in forest growth and yield predictions with artificial intelligence technology[J]. Canadian Journal of Forest Research, 2013, 43(12): 1162−1171. doi:  10.1139/cjfr-2013-0090
    [14] Breiman L, Friedman J H, Stone C J, et al. Classification and regression trees[M]. London: Chapman and Hall, 1984.
    [15] De'Ath G. Boosted trees for ecological modeling and prediction[J]. Ecology, 2007, 88(1): 243−251. doi:  10.1890/0012-9658(2007)88[243:BTFEMA]2.0.CO;2
    [16] Kuhn M, Johnson K. Applied predictive modeling[M]. New York: Springer, 2013.
    [17] Breiman L. Random forest[J]. Machine Learning, 2001, 45(1): 5−32. doi:  10.1023/A:1010933404324
    [18] 高若楠, 苏喜友, 谢阳生, 等. 基于随机森林的杉木适生性预测研究[J]. 北京林业大学学报, 2017, 39(12):36−43.

    Gao R N, Su X Y, Xie Y S, et al. Prediction of adaptability of Cunninghamia lanceolata based on random forest[J]. Journal of Beijing Forestry University, 2017, 39(12): 36−43.
    [19] 欧强新, 李海奎, 雷相东, 等. 基于清查数据的福建省马尾松生物量转换和扩展因子估算差异解析——3种集成学习决策树模型的比较[J]. 应用生态学报, 2018, 29(6):2007−2016.

    Ou Q X, Li H K, Lei X D, et al. Difference analysis in estimating biomass conversion and expansion factors of masson pine in Fujian Province, China based on national forest inventory data: a comparison of three decision tree models of ensemble learning[J]. Chinese Journal of Applied Ecology, 2018, 29(6): 2007−2016.
    [20] 余黎, 雷相东, 王雅志, 等. 基于广义可加模型的气候对单木胸径生长的影响研究[J]. 北京林业大学学报, 2014, 36(5):22−32.

    Yu L, Lei X D, Wang Y Z, et al. Impact of climate on individual tree radial growth based on generalized additive model[J]. Journal of Beijing Forestry University, 2014, 36(5): 22−32.
    [21] 沈琛琛. 气候敏感的长白落叶松立地指数模型研究[D]. 北京: 中国林业科学研究院, 2012.

    Shen C C. Climate-sensitive site index model of Larix olgensis Henry[D]. Beijing: Chinese Academy of Forestry, 2012.
    [22] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

    Zhou Z H. Machine learning[M]. Beijing: Tsinghua University Press, 2016.
    [23] Goldstein A, Kapelner A, Bleich J, et al. Peeking inside the black box: visualizing statistical learning with plots of individual conditional expectation[J]. Journal of Computational and Graphical Statistics, 2015, 24(1): 44−65. doi:  10.1080/10618600.2014.907095
    [24] 张瑞英, 庞勇, 李增元, 等. 结合机载LiDAR和LANDSAT ETM+数据的温带森林郁闭度估测[J]. 植物生态学报, 2016, 40(2):102−115. doi:  10.17521/cjpe.2014.0366

    Zhang R Y, Pang Y, Li Z Y, et al. Canopy closure estimation in a temperate forest using airborne LiDAR and LANDSAT ETM+ data[J]. Chinese Journal of Plant Ecology, 2016, 40(2): 102−115. doi:  10.17521/cjpe.2014.0366
    [25] Breiman L. Statistical modeling: the two cultures[J]. Statistical Science, 2001, 16(3): 199−231.
    [26] Alam S A, Huang J G, Stadt K J, et al. Effects of competition, drought stress and photosynthetic productivity on the radial growth of white spruce in western Canada[J/OL]. Frontiers in Plant Science, 2017, 8: 1−15 [2018−03−15]. https://www.frontiersin.org/articles/10.3389/fpls.2017.01915/full.
    [27] 孟宪宇. 测树学[M]. 3版. 北京: 中国林业出版社, 2006.

    Meng X Y. Forest mensuration edition)[M]. 3rd ed. Beijing: China Forestry Publishing House, 2006.
  • [1] 李春明, 李利学.  基于零膨胀模型及混合效应模型相结合的蒙古栎林林木进界模拟研究 . 北京林业大学学报, 2020, 42(6): 59-67. doi: 10.12171/j.1000-1522.20190216
    [2] 高林浩, 孙晗, 白雪卡, 代爽, 樊艳文, 刘超, 王襄平, 尹伟伦.  气候、系统发育对长白山乔灌木比叶面积与叶元素含量关系的影响 . 北京林业大学学报, 2020, 42(2): 19-30. doi: 10.12171/j.1000-1522.20190320
    [3] 陈国栋, 杜研, 丁佩燕, 郭珂歆, 尹忠东.  基于混合效应模型的新疆天山云杉单木胸径预测模型构建 . 北京林业大学学报, 2020, 42(7): 12-22. doi: 10.12171/j.1000-1522.20190236
    [4] 曹梦, 潘萍, 欧阳勋志, 臧颢, 吴自荣, 杨阳, 占常燕.  基于哑变量的闽楠天然次生林单木胸径和树高生长模型研究 . 北京林业大学学报, 2019, 41(5): 88-96. doi: 10.13332/j.1000-1522.20190026
    [5] 马静怡, 黄华国, 黄侃, 邢路.  基于16线阵TLS数据的单木识别及林分断面积估测研究 . 北京林业大学学报, 2018, 40(8): 23-32. doi: 10.13332/j.1000-1522.20180016
    [6] 陈彬杭, 温晓示, 张树斌, 柴世品, 孙晗, 王襄平.  吉林北部山区长白落叶松林径向生长对气候干暖化的响应 . 北京林业大学学报, 2018, 40(12): 18-26. doi: 10.13332/j.1000-1522.20180333
    [7] 吕延杰, 杨华, 张青, 王全军, 孙权.  云冷杉天然林林分空间结构对胸径生长量的影响 . 北京林业大学学报, 2017, 39(9): 41-47. doi: 10.13332/j.1000-1522.20170184
    [8] 闫伯前, 林万众, 刘琪璟, 于健.  秦岭不同年龄太白红杉径向生长对气候因子的响应 . 北京林业大学学报, 2017, 39(9): 58-65. doi: 10.13332/j.1000-1522.20170161
    [9] 高若楠, 苏喜友, 谢阳生, 雷相东, 陆元昌.  基于随机森林的杉木适生性预测研究 . 北京林业大学学报, 2017, 39(12): 36-43. doi: 10.13332/j.1000-1522.20170260
    [10] 郭鑫, 吴鹏, 韩威, 李巧燕, 杨蕾, 安海龙, 王襄平.  演替和气候对阔叶红松林土壤有机碳密度的影响 . 北京林业大学学报, 2016, 38(7): 55-63. doi: 10.13332/j.1000-1522.20160060
    [11] 徐金梅, 张冉, 吕建雄, RobertEvans, .  不同海拔青海云杉木材细胞结构对气候因子的响应 . 北京林业大学学报, 2015, 37(7): 102-108. doi: 10.13332/j.1000-1522.20140444
    [12] 黄建, FalkHuettmann, 郭玉民.  黑龙江流域白头鹤繁殖栖息地选择模型预测 . 北京林业大学学报, 2015, 37(8): 40-47. doi: 10.13332/j.1000-1522.20140178
    [13] 王树力周健平, .  基于结构方程模型的林分生长与影响因子耦合关系分析 . 北京林业大学学报, 2014, 36(5): 7-12. doi: 10.13332/j.cnki.jbfu.2014.05.011
    [14] 吴迪, 范文义.  激光雷达协同多角度光学遥感数据反演树高 . 北京林业大学学报, 2014, 36(4): 8-15. doi: 10.13332/j.cnki.jbfu.2014.04.006
    [15] 余黎, 雷相东, 王雅志, 杨英军, 王全军.  基于广义可加模型的气候对单木胸径生长的影响研究 . 北京林业大学学报, 2014, 36(5): 22-32. doi: 10.13332/j.cnki.jbfu.2014.05.007
    [16] 李春明.  随机截距效应在模拟杉木人工林单木胸径生长量中的应用 . 北京林业大学学报, 2011, 33(4): 7-12.
    [17] 刘春延, 谷建才, 李吉跃, 陈平, 陆贵巧, 田国恒, .  塞罕坝华北落叶松生长与气候因子的相关分析 . 北京林业大学学报, 2009, 31(4): 102-105.
    [18] 周丹卉, 贺红士, 李秀珍, 周春华, 王绪高, 陈宏伟.  小兴安岭不同年龄林分对气候变化的潜在响应 . 北京林业大学学报, 2007, 29(4): 110-117.
    [19] 陈振举, 陈玮, 何兴元, 邵雪梅2, 3, 孙雨, 张春涛, 付印东, 刘铁红.  沈阳福陵油松年轮宽度年表的建立 . 北京林业大学学报, 2007, 29(4): 100-109.
    [20] 黄荣凤, 邵海荣, 曹世雄, 王小丹, 贺庆棠, 李雪玲, 李黎, 戴松香, 王瑞刚, 董运斋, 张德荣, 田晶会, 马宇飞, 高岩, 赵晓松, 黄华国, 郭明辉, 华丽, 李俊清, 贺康宁, 古川郁夫, 于志明, 冷平生, 王四清, 张晓丽, 陈斌如, 关德新, 金幼菊, 陈少良, 阎海平, 闫丽, 贺庆棠, 习宝田, 李文彬, 陈少良, 李海英, 王百田, 高攀, 邹祥旺, 李建章, 刘力源, 杨永福, 任云卯, 高双林, 陈莉, 阎海平, 鲍甫成, 王蕾, 吴家兵, 张卫强, 金小娟, 金昌杰, 陈华君, 侯智, 程根伟, 侯智, 郝志勇, 赵有科, 陈源泉, 王金满, 韩士杰, 李涛, 高旺盛, 尹婧, 杜建军, 翁海娇, 李鹤, 赵琼, 杨爽, 段杉.  毛乌素沙地杨树年轮结构对气候因子的响应 . 北京林业大学学报, 2005, 27(3): 24-29.
  • 加载中
图(4) / 表 (2)
计量
  • 文章访问数:  951
  • HTML全文浏览量:  884
  • PDF下载量:  77
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-08-15
  • 修回日期:  2019-01-12
  • 网络出版日期:  2019-08-26
  • 刊出日期:  2019-09-01

基于随机森林算法的落叶松−云冷杉混交林单木胸径生长预测

doi: 10.13332/j.1000-1522.20180266
    基金项目:  国家自然科学基金(31870623)
    作者简介:

    欧强新,博士。主要研究方向:森林生长模型与模拟。Email:jonsinou@foxmail.com 地址:100091 北京市海淀区香山路东小府2号中国林业科学研究院资源信息研究所

    通讯作者: 雷相东,博士,研究员。主要研究方向:森林生长模型与模拟。Email:xdlei@ifrit.ac.cn 地址:同上
  • 中图分类号: S758.5

摘要: 目的单木生长受气候、林分等多种因子影响,需要利用适当的方法厘清气候以及林分中影响林木生长的主导因子。随机森林等机器学习方法提供了一种新的途径,需要检验利用随机森林算法分析气候和林分因子对林木生长影响的可靠性,为森林生长收获预估提供新的方法。方法以吉林省汪清林业局20块落叶松−云冷杉混交林固定样地25年(1986—2010年)间连续调查数据作为研究材料,候选气候和林分因子52个,利用随机森林算法建立了包含气候和林分的单木胸径生长模型,分析气候和林分因子对单木胸径年平均生长量的影响:基于52个超参数组合(决策树数目ntree = 1 000、决策树每个结点随机选择的预测变量个数mtry = {1, 2, ···, 52})构建了52个随机森林模型,利用10折交叉验证法分别训练和评估52个随机森林模型;基于完整数据集,利用最优随机森林模型分析自变量对单木胸径年平均生长量影响的相对重要性以及偏依赖关系。结果ntree = 1 000、mtry = 12所对应的模型是52个模型中具有最佳泛化能力的模型,该模型具有最大的交叉验证决定系数R2cvR2cv = 0.54),以及最小的交叉验证均方根误差RMSEcv、交叉验证平均绝对偏差MAEcv和交叉验证相对均方根误差rRMSEcv(RMSEcv = 0.14 cm、MAEcv = 0.10 cm、rRMSEcv = 50%)。单木胸径年平均生长量受林分因子的影响极大,相对重要性超过80.00%。8个林分因子中,大于对象木的林木断面积之和BAL对单木胸径年平均生长量影响最大,林分每公顷株数N对单木胸径年平均生长量影响最小,其他因子对单木胸径年平均生长量影响介于两者之间;单木胸径年平均生长量随BAL、林分每公顷断面积BA、N以及林分断面积平均胸径Dg的增加而下降,随对象木胸径与林分断面积平均胸径之比RD、林木期初胸径D0以及对象木胸径与林分中最大林木胸径之比DDM的增加而增加。单木胸径年平均生长量受气候因子的影响较小,相对重要性低于20.00%。44个气候因子对单木胸径年平均生长量的影响均较小(相对重要性均 < 1%),其中,生长季平均降水量(4—9月)与年均降水量之比Pratio、年总太阳辐射时长Asr、生长季平均降水量(4—9月)与生长季相对湿度(4—9月)之比Gspgsrh以及生长季太阳辐射时长(4—9月)Gssr是前4个相对重要的变量。结论随机森林模型能够较好地解析各变量与单木胸径年平均生长量之间复杂的关系,单木胸径年平均生长量受林分因子的影响极大,而受气候因子的影响较小。总体而言,在局部尺度上,林分因子是影响单木胸径生长的主导因子,而气候因子对单木胸径生长的解释能力有限。随机森林模型具有一定的泛化能力和统计可靠性,产生的变量重要性和偏依赖图具有合理的林学意义。

English Abstract

欧强新, 雷相东, 沈琛琛, 宋国涛. 基于随机森林算法的落叶松−云冷杉混交林单木胸径生长预测[J]. 北京林业大学学报, 2019, 41(9): 9-19. doi: 10.13332/j.1000-1522.20180266
引用本文: 欧强新, 雷相东, 沈琛琛, 宋国涛. 基于随机森林算法的落叶松−云冷杉混交林单木胸径生长预测[J]. 北京林业大学学报, 2019, 41(9): 9-19. doi: 10.13332/j.1000-1522.20180266
Ou Qiangxin, Lei Xiangdong, Shen Chenchen, Song Guotao. Individual tree DBH growth prediction of larch-spruce-fir mixed forests based on random forest algorithm[J]. Journal of Beijing Forestry University, 2019, 41(9): 9-19. doi: 10.13332/j.1000-1522.20180266
Citation: Ou Qiangxin, Lei Xiangdong, Shen Chenchen, Song Guotao. Individual tree DBH growth prediction of larch-spruce-fir mixed forests based on random forest algorithm[J]. Journal of Beijing Forestry University, 2019, 41(9): 9-19. doi: 10.13332/j.1000-1522.20180266
  • 单木胸径生长模型是混交林生长收获预估中的一类重要模型。林木生长受诸如气候、竞争或病虫害等生物或非生物因素的显著影响[1]。除了传统的林分密度、林木大小和树种等林分因子用于构建生长模型外,温度、光照以及降水量等气候因子也与林木生长息息相关。在气候变化的背景下,建立包含气候因子的生长模型,研究气候变化对生长的影响尤为必要。气候变化对林木生长的影响是不同气候因子间综合作用的结果。此外,一些研究表明,林木生长对气候的响应不可避免地受到竞争的影响,竞争可以直接影响林木生长或者通过响应气候变化来间接影响林木生长。竞争和气候交互地影响林木生长,然而这种影响随林木大小、树种和林分特性等的不同而不同[1-4]。如Matsushita等[4]指出对象木受近邻竞争木影响的程度依赖于林木大小;Martínez-Vilalta等[5]、Messaoud和Chen [6]指出由于不同树种具有不一致的生活史与生理特征,气候变化和竞争对林木生长影响的程度也依赖于树种。利用适当的方法厘清气候以及林分因子中影响林木生长的主导因子,能够为森林适应性经营提供科学可靠的理论依据。

    线性及非线性回归模型、混合效应模型[7-12]等传统统计方法已被广泛应用于研究林木生长。然而,这些方法在运用时常常需满足一定的统计假设前提,诸如数据独立、正态分布和等方差等,但是由于森林生长数据的连续观测和层次性,上述假设通常难以满足[13],有必要尝试新的方法。自1984年开始,由Breiman等[14]提出的一种非参数、非线性的决策树模型——分类与回归树(Classification and regression trees,CART),被广泛用于生态数据的分析与预测等工作中。分类与回归树模型能够有效地处理各种类型(如偏态的、连续的和分类的)预测变量,预测变量和因变量不需要做任何形式的分布假定,且能够处理预测变量间复杂的交互作用[15-16]。然而,单棵树的分类与回归树模型存在极大的不稳定性,因为训练数据集微小变动可能会导致预测较大的变化,这些不稳定的模型具有欠佳的预测能力和较大的方差。为了克服此类问题,Breiman[17]于2001年提出了基于集成学习的决策树模型——随机森林模型,此类基于集成学习的决策树模型通常较单棵树的决策树模型更稳定、预测能力更强。随机森林模型能够量化自变量对因变量影响的相对重要性,并且能够获取因变量随自变量变化而变化的偏依赖图,成为机器学习的一种主要算法。随机森林模型已经在分析林木适宜性生长的影响因素[18]、林木生物量转换和扩展因子的影响因素[19]等研究中成功得到应用。然而,利用随机森林模型分析气候和林分因子对林木生长影响的研究,目前尚未见报道。本研究以20块东北林区落叶松−云冷杉针阔混交林固定样地25年(1986—2010年)间连续调查数据作为研究材料,利用随机森林模型预估单木直径生长,分析气候和林分因子对单木胸径年平均生长量的影响,为森林生长收获预估和气候因子对生长的影响研究提供新的方法。

    • 本研究区为吉林省汪清林业局(43°05′ ~ 43°49′N,123°56′ ~ 131°04′E),数据由样地数据和气候数据两部分组成,与余黎[20]的数据相同。样地数据为1986—2010年间汪清林业局金沟岭林场落叶松−云冷杉针阔混交林的连续调查固定样地,共20块,每间隔2 ~ 3年复测一次样地,各样地面积介于0.077 5 ~ 0.25 hm2。样地以长白落叶松(Larix olgensis)、鱼鳞云杉(Picea jezoensis)以及臭冷杉(Abies nephrolepis)为优势树种,并伴生着红松(Pinus koraiensis)、慢阔(色木Acer mono、水曲柳Fraxinus mandshurica、紫椴Tilia amurensis、枫桦Betula costata、黄菠萝Phellodendron amurense)和中阔(白桦Betula platyphylla、春榆Ulmus propinqua)3个树种(组)[20]。建模所用的数据为25年内任意5年间隔期的样地数据,共16 619个单木样本记录,主要由竞争、林木大小以及树种(组)类别变量组成。树种(组)类别共6类:落叶松10 013个样本、云杉1 089个样本、冷杉1 703个样本、红松706个样本、中阔622个样本以及慢阔2 486个样本。样地基本因子统计量见表1

      表 1  林分及单木因子统计

      Table 1.  Summary statistics of stand variables

      因子
      Variable
      平均值
      Mean
      标准差
      Standard deviation
      最小值
      Minimum
      最大值
      Maximum
      说明
      Description
      ΔD/cm 0.28 0.21 0.00 2.04 1986—2010年间任意5年间隔单木的胸径年均生长量
      Individual tree mean annual DBH increment within any 5-year intervals from 1986 to 2010
      D0/cm 17.44 6.51 5.00 51.00 林木期初胸径
      Initial tree DBH
      BAL/m2 17.70 8.29 0.00 37.29 大于对象木的林木断面积之和
      Sum of basal area larger than the subject tree
      RD 0.95 0.34 0.24 2.74 对象木胸径与林分断面积平均胸径之比
      Ratio of DBH of a subject tree to stand average DBH
      DDM 0.47 0.18 0.13 1.00 对象木胸径与林分中最大林木胸径之比
      Ratio of DBH of a subject tree to the maximal DBH
      N/(株·hm− 2
      N/(tree·ha− 1)
      1 017 245 395 1 585 林分每公顷株数
      Number of trees per hectare
      BA/(m2·hm− 2
      BA/(m2·ha− 1)
      26.26 5.42 14.22 37.37 林分每公顷断面积
      Stand basal area per hectare
      Dg/cm 18.31 2.13 13.01 22.95 林分断面积平均胸径
      Quadratic mean DBH

      气候数据源于中国气象数据科学共享服务网(http://cdc.cma.gov.cn)1961—2010年吉林省以及周边43个气象站点的数据[20],采用ANUSPLIN插值软件对气候数据进行空间插值(分辨率300 m × 300 m)[21]。利用样地所在栅格(若无对应的坐标点,取距离样地最近的栅格)的气候数据进行建模,建模所用的气候数据由温度、降水、光照等基本气候因子以及由基本气候因子交互生成的复合因子两大类组成,共计44个指标(因篇幅所限,表2中仅列出了6个重要因子的统计量),各单木胸径年平均生长量所对应的气候因子取值为5年间隔内的平均值[20-21]

      表 2  部分气候因子统计表

      Table 2.  Summary statistics of selected climate variables

      因子
      Variable
      平均值
      Mean
      标准差
      Standard deviation
      最小值
      Minimum
      最大值
      Maximum
      说明
      Description
      Pratio 0.84 0.009 7 0.82 0.85 生长季平均降水量(4—9月)与年均降水量之比
      Ratio of average precipitation in growing season (April to September) to mean annual precipitation
      Asr/h 2 381.32 34.57 2 316.51 2 442.43 年总太阳辐射时长
      Annual total solar radiation duration
      Gspgsrh/mm 0.069 2 0.004 1 0.062 8 0.074 5 生长季平均降水量(4—9月)与生长季相对湿度(4—9月)之比
      Ratio of average precipitation in growing season (April to September) to relative humidity in growing season (April to September)
      Gssr/h 1 241.32 28.08 1 190.61 1 278.48 生长季太阳辐射时长(4—9月)
      Solar radiation duration in growing season (April to September)
      Amt/℃ 3.09 0.28 2.42 3.47 年平均气温
      Mean annual temperature
      Map/mm 509.27 16.22 476.84 536.52 年均降水量
      Mean annual precipitation
    • 随机森林是一种以决策树为基学习器的集成学习方法,该模型通过重抽样手段构建一系列基学习器(如m个),并将这些基预测器的预测结果组合起来并输出。在每个基学习器的构建过程中,随机森林在每个树结点随机地从全部P个变量中选取k(1 ≤ kP)个,从中寻找一个最优划分变量[22]。对于回归问题,随机森林模型取m个基学习器预测结果的平均值作为最终的输出结果。

      随机森林模型能够提供预测变量的相对重要性(relative importance of predictor variables)以及预测变量对因变量影响的偏依赖图(partial dependence plots)两种方法来提高随机森林模型的可解释性。有两种确定各个预测变量重要性的方法:结点纯度提升法和OOB置换法。结点纯度提升法利用变量在结点处分裂产生的结点纯度的提升来度量,OOB置换法利用变量被置换前后均方误差的改变量来度量。本研究采用上述两种方法,并将所有变量的重要程度归一化到100%进行比较。偏依赖关系图有助于可视化因变量对一个或两个自变量的依赖关系,当自变量为一个时,偏依赖关系图是一种因变量(纵坐标)随自变量(横坐标)变化而变化的二维线图;当自变量为两个时,偏依赖关系图是一种因变量随自变量变化而变化的三维曲面图[23]。值得指出的是,因变量对某一自变量的偏依赖关系并非是忽略其他变量对因变量的影响,而是在考虑其他变量对因变量影响的平均效应后计算而来。

    • 本研究以8个林分因子(D0、BAL、RD、DDM、N、BA、Dg和树种(组)类别变量)以及44个气候因子为自变量,利用随机森林算法构建单木胸径年平均生长量(ΔD)的预测模型。在随机森林模型的构建过程中,有两个重要超参数需要设置:随机森林中决策树的数目(ntree)以及树节点随机抽选的变量个数(mtry)[24]。一般而言,当ntree在500以后整体误差率便趋于稳定[24],但仍需依据具体数据而定。为保障预估结果的可靠性且不会影响计算效率,本文采用ntree = 1 000。Breiman [17]建议,对于回归问题,mtry默认值设置为全部自变量数目的1/3(取整)。由于具体数据的不同,取mtry默认值不一定能获取最优的模型,仍需对mtry进行调优[16]。由于本研究共利用52个自变量进行建模,故而1 ≤ mtry ≤ 52。利用10折交叉验证法(ten-fold cross validation)分别训练和评估52个随机森林模型(ntrees = 1 000, mtry = 1, 2, ···, 52),选择泛化能力最佳的模型作为最优模型。基于全部数据集,利用最优模型分析预测变量对因变量影响的相对重要性以及偏依赖关系。

    • 依据10折交叉验证的决定系数($R_{{\rm{cv}}}^2 $)、均方根误差(RMSEcv)、相对均方根误差(rRMSEcv)以及平均绝对偏差(MAEcv)4类指标对模型进行评价,4类指标的计算公式如下:

      $$\begin{aligned} R_{{\rm{cv}}}^2 &= \frac{1}{k}\mathop \sum \limits_{j = 1}^k {R_{{j}}^2} = \frac{1}{k}\mathop \sum \limits_{j = 1}^k \left( {1 - \left.{ \mathop \sum \limits_{i = 1}^{{n_j}} {{\left( {{O_{ij}} - {P_{ij}}} \right)}^2}}\right/}\right.\\ &\left. {\mathop \sum \limits_{i = 1}^{{n_j}} {{\left( {{O_{ij}} - {{\overline O}_j}} \right)}^2}} \right) \end{aligned}$$ (1)
      $$\begin{aligned} {\rm{RMS}}{{\rm{E}}_{{\rm{cv}}}} =& \frac{1}{k}\mathop \sum \limits_{j = 1}^k {{\rm{RMS}}{{\rm{E}}_{{j}}}} = \\ & \frac{1}{k}\mathop \sum \limits_{j = 1}^k {\sqrt {\frac{1}{{{n_j}}}\mathop \sum \limits_{i = 1}^{{n_j}} {{\left( {{O_{ij}} - {P_{ij}}} \right)}^2}} } \end{aligned}$$ (2)
      $$\begin{aligned} {\rm{rRMS}}{{\rm{E}}_{{\rm{cv}}}} &= 100{\text{%}} \times \frac{1}{k}\mathop \sum \limits_{j = 1}^k {{\rm{rRMS}}{{\rm{E}}_{{j}}}} = \\ &100{\text{%}} \times \frac{1}{k}\mathop \sum \limits_{j = 1}^k \left( {\left.{\sqrt {\frac{1}{{{n_j}}}\mathop \sum \limits_{i = 1}^{{n_j}} {{\left( {{O_{ij}} - {P_{ij}}} \right)}^2}}}\right/{{\overline O}_j}} \right) \end{aligned}$$ (3)
      $$ {\rm{MA}}{{\rm{E}}_{{\rm{cv}}}} = \frac{1}{k}\mathop \sum \limits_{j = 1}^k {{\rm{MA}}{{\rm{E}}_{{j}}}} = \frac{1}{k}\mathop \sum \limits_{j = 1}^k \left( {\frac{1}{{{n_j}}}\mathop \sum \limits_{i = 1}^{{n_j}} \left| {{P_{ij}} - {O_{ij}}} \right|} \right) $$ (4)

      式中:k是交叉验证的折数,本文中k = 10;OijPij分别表示第j折的第i个观测值和模型预测值;${{\overline O}_j} $表示第j折观测值的平均值;nj表示第j折的样本数;R2j、RMSEj、rRMSEj和MAEj分别表示第j折的决定系数、均方根误差、相对均方根误差以及平均绝对偏差。

      R2cv用于检验回归模型对观测值的拟合程度,取值在0 ~ 1之间,越接近1,表明拟合效果越好;RMSEcv、rRMSEcv和MAEcv可以衡量预测值与观测值的差异,它们的值越小,模型的预测能力越好。

    • 数据分析工作在统计软件R 3.4.4中完成,其中随机森林模型的回归建模通过调用randomForest软件包进行的,并调用caret包进行10折交叉验证。

    • 图1为52个模型10折交叉验证评价指标图。由图1可知,当mtry分别为12和1时具有最大和最小的 $R_{{\rm{cv}}}^2 $ (0.54和0.43);对于RMSEcv、MAEcv以及rRMSEcv,最大和最小的RMSEcv(0.18和0.14 cm)、MAEcv(0.14和0.10 cm)以及rRMSEcv(63%和50%)均分别处于mtry = 1和mtry = 12时。总体而言,$R_{{\rm{cv}}}^2 $、RMSEcv以及MAEcv随mtry变化而变化的趋势为:当mtry ≤ 6时,$R_{{\rm{cv}}}^2 $ 随mtry的增大而显著增大,RMSEcv、MAEcv以及rRMSEcv均随mtry的增大而显著减小;当mtry > 6后,4个统计量随mtry的变化而变化的幅度很小。

      图  1  不同mtry所对应的随机森林模型10折交叉验证评价指标

      Figure 1.  Ten-fold cross validation evaluation index of different random forest models in accordance with mtry values

      当mtry = 12时随机森林模型具有最大的 $R_{{\rm{cv}}}^2 $ 和最小的RMSEcv、MAEcv、rRMSEcv,表明该模型是52个模型中的最优模型。图2为最优模型在各折测试集上的模型表现,对于R2,其最大值、最小值和平均值分别为0.57、0.51和0.54;而RMSE的最大值、最小值和平均值分别为0.15、0.13和0.14 cm;MAE的最大值、最小值和平均值分别为0.10、0.10和0.10 cm;rRMSE的最大值、最小值和平均值分别为53%、48%和50%。

      图  2  mtry为12时所对应的随机森林模型在各折测试集上的模型表现

      Figure 2.  Performance of random forest model with the vaule of mtry as 12 based on each-fold test set

    • 图3为OOB置换法和结点纯度提升法得到的各自变量对单木胸径年平均生长量影响的相对重要性得分。对基于OOB置换法的相对重要性而言,8个林分因子对单木胸径年平均生长量影响的相对重要性高达87.01%,其中,竞争指数58.88%,林木大小22.96%,树种(组)类别5.17%。44个气候因子对单木胸径年平均生长量影响的相对重要性为12.99%。对基于结点纯度提升法的相对重要性而言,8个林分因子对单木胸径年平均生长量影响的相对重要性高达80.95%,其中,竞争指数55.17%,林木大小21.17%,树种(组)类别4.61%。44个气候因子对单木胸径年平均生长量影响的相对重要性为19.05%。可以看出,两种方法的结果基本一致:林分因子是影响单木胸径年平均生长量的主导因子,相对重要性超过80.00%,其中竞争指数相对重要性达55.00%以上;气候对单木胸径年平均生长量的影响较小,相对重要性低于20.00%。

      图  3  基于两种重要性度量方法的各自变量对单木胸径年平均生长量影响的相对重要性得分

      Figure 3.  Relative importance scores of each independent variable affecting individual tree DBH growth based on two methods of variable importance calculation

    • 图4为林分因子和部分气候因子(选取在两种重要性度量方法中排名均靠前的4个气候因子为例)对单木胸径年平均生长量影响的偏依赖关系。单木胸径年平均生长量均随BAL、BA、N这3个竞争指数的增加而下降,当增加到一定数值后变化趋势趋于平稳,而随RD、DDM两个竞争指数的增加而增加,当增加到一定程度后变化趋势趋于平稳;单木胸径年平均生长量随Dg的增加而下降,当增加到一定程度后变化趋势趋于平稳,而随D0的增加而升高,当增加到一定程度后变化趋势趋于平稳。不同树种的胸径年平均生长量存在一定的差异,具体表现为:冷杉 > 落叶松 > 红松 > 中阔 > 云杉 > 慢阔。对于气候因子,单木胸径年平均生长量随Pratio的增加而缓慢下降,而随Asr、Gspgsrh以及Gssr的增加而缓慢升高。

      图  4  林分因子(A ~ H)和部分气候因子(I ~ L)对单木胸径年平均生长量影响的偏依赖关系图

      Figure 4.  Partial dependence plots of stand variables (A−H) and partial climatic variables (I−L) affecting individual tree DBH growth

    • 在随机森林模型中,超参数ntree控制了决策树的数目,Breiman [17]证明了随机森林模型能够避免过拟合问题,使用大量的树建立随机森林模型不会对模型产生不利的影响,而在实际应用过程中,决策树的数目越大,随机森林模型在建模时所耗费的计算负担也就越大[16]。超参数mtry控制了随机性引入的程度,丰富了随机森林基学习器的多样性。集成学习的重点是使训练得到的基学习器具有多样性,将众多这样的基学习器进行组合能够有效地提高预测能力。当mtry = 1时,随机选择一个变量用于划分;当mtry = 52时,基学习器的生成与传统回归树相同。Kuhn和Johnson [16]指出,随机森林的调优参数mtry不会对模型的表现产生巨大影响。本研究发现,mtry取值较小时(mtry ≤ 6),随机森林模型受mtry取值的影响极大,模型的泛化能力随mtry的增大而升高;当mtry取值较大时(mtry ≥ 7),随机森林模型的泛化能力受mtry取值的影响较小。当mtry采用Breiman [17]推荐值(全部自变量数目52的1/3(取整)),即17时,模型的泛化能力稍弱于mtry = 12所对应的随机森林模型(图1),差异并不明显。当mtry取全部自变量数目52时,此时模型属于bagging模型,与其他51个随机森林模型相比,bagging模型的泛化能力仅仅好于mtry = 1、mtry = 2、mtry = 3、mtry = 4以及mtry = 5所对应的模型(图1)。此外,与随机森林模型相比,bagging模型使用了全部自变量,而随机森林模型在每个切分点上只考虑了全部自变量的一个子集,故在训练单棵回归树时计算效率要低于随机森林模型[16]。mtry = 12所对应的随机森林模型预测单木年平均胸径的10折交叉验证的决定系数为0.54,均方根误差为0.14 cm、平均绝对偏差为0.10 cm以及相对均方根误差为50%。余黎[20]的预测结果显示,广义可加模型预测单木年平均胸径的决定系数为0.51,均方根误差为0.15 cm、平均绝对偏差为0.11 cm以及相对均方根误差为54%。本研究与余黎[20]的研究相比可知,随机森林模型的模型表现略优于广义可加模型。从总体上来说,随机森林模型具有与广义可加模型相当的泛化能力和统计可靠性。

      随机森林模型的可解释性可通过预测变量的相对重要性以及偏依赖图来实现。Kuhn和Johnson[16]指出,结点纯度提升法和OOB置换法这两种变量重要性度量方法的运行结果可能会存在一定的差异。本文发现,总体来说,两类方法的运行结果基本相同,但有较小差异。两种方法的结果均表明:林分因子对单木胸径年平均生长量影响的相对重要性均极大,超过了80.00%,而气候因子对单木胸径年平均生长量影响均较小;8个林分因子中,BAL对单木胸径年平均生长量影响均最大,N对单木胸径年平均生长量影响均最小,其他因子对单木胸径年平均生长量影响介于两者之间;44个气候因子中,每个因子对单木胸径年平均生长量的影响均较小(< 1%),其中,Pratio、Asr、Gspgsrh以及Gssr是4个相对重要性均靠前的变量。本文发现,某一变量对单木胸径年平均生长量影响的偏依赖关系,与该变量对单木胸径年平均生长量影响的相对重要性高度相关(参见图3图4),即若某一自变量对单木胸径年平均生长量影响的相对重要性越大,则单木胸径年平均生长量对该变量的依赖性越大。具体表现为,当某一变量的相对重要性越大,则单木胸径年平均生长量随该变量的变化而变化的程度越剧烈;当某一变量的相对重要性越小,则单木胸径年平均生长量随该变量变化而变化的程度越平缓。

      与传统回归模型不同,随机森林模型属于一类典型的机器学习模型。传统统计模型通过假定模型形式,能够给出明确的公式和相应的参数,且形式直观、易于理解,而随机森林等机器学习模型是数据驱动的模型,模型没有具体的模型形式,属于一种“黑箱”模型。然而,传统统计模型也存在一定的局限性,如模型在运用时常常需要满足数据独立、正态分布和等方差等统计假设前提[13]。此外,当利用非线性形式和自变量较多时,具体模型形式的选择和模型收敛变得相当困难。与传统的统计模型相比,随机森林等机器学习模型不需要进行统计假设和预定具体的模型形式,且能够对预测变量和响应变量之间的复杂和非线性关系进行建模[15-16]。此外,本研究未对诸多林分因子间、气候因子间进行共线性检验和自变量筛选。虽然特征选择是机器学习的重要组成部分,但由于本研究选用的随机森林模型属于集成学习的决策树模型,树模型对无信息预测变量具有抵抗力,即若一个自变量在构造树的过程中没有用于任何节点的分裂,预测模型在功能上就不受该变量的影响[16];随机森林模型对自变量间的共线性不敏感,且模型结果对非平衡数据和缺失数据比较稳健[25]。另外,本研究将树种作为分类变量进行处理,但不像传统回归中将其作为哑变量来分析不同树种直径生长量影响因子的参数估算差异。随机森林模型将树种作为各个回归树内部结点的一个切分变量,来分析不同树种直径生长量影响因子的估算差异,回归树中的每一个非叶结点表示一个决策,该决策的值导致不同决策结果或影响后面的决策选择。具体地,若树种是某个非叶结点处的最优切分变量,则该结点将依据树种的具体种类对数据集进行切分,每个后续的切分将依据该结点的切分为基础对数据进行划分。然而,如何利用哑变量检验不同树种间影响单木生长因子的差异,这些都需要进一步研究。

    • 本研究发现,单木胸径年平均生长量受林分因子的影响极大,相对重要性超过80.00%,其中,单木胸径年平均生长量随BAL、BA、N以及Dg的增加而下降,随RD、D0以及DDM的增加而增加,不同树种的胸径年平均生长量存在一定的差异,具体表现为冷杉 > 落叶松 > 红松 > 中阔 > 云杉 > 慢阔。这与余黎等[20]的研究类似,余黎等[20]的研究表明林分因子是影响单木胸径生长的主要因子,单木胸径年平均生长量随BAL、N以及Dg增加而下降,随D0的增加而上升。在其他研究中也发现相似的结果,如Jiang等[1]以加拿大西部阿尔伯塔省的美国山杨(Populus tremuloides)和白云杉(Picea glauca)为对象,研究表明竞争指数(N、BA、林分每公顷胸径总和、林分密度指数)和林木大小因子(单木胸径)是两类控制单木断面积生长的重要因子,单木断面积生长量与竞争因子呈负效应关系,而与林木大小因子呈正效应关系。Alam等[26] 以加拿大西部阿尔伯塔省的白云杉为研究对象,研究发现单木胸径生长主要受竞争指数(BA、对象木树高与林分最高树高之比)的限制,且单木胸径生长量随BA的增加而下降。林分竞争指数能够表征整个林分的平均拥挤程度或林分对所处立地的充分利用程度,具体到单木,竞争指数能够表征林分内每株单木平均占有的生长空间[27]。BA与N竞争指数越大,表明林分内每株单木对生长空间的平均占有度越小,故而单木胸径年平均生长量越小[20]。一般而言,林分内不同大小的单木所占据的生长空间是不同的,它们各自所承受着不同的竞争压力,由于单木所承受的竞争压力的不同,则导致林分内林木生长产生分化[27]。BAL这一竞争指数越大,表明单木所承担的竞争压力越大,故而单木胸径年平均生长量越小;RD与DDM两个竞争指数越大,表明单木所承受的竞争压力越小,故而单木胸径年平均生长量越大。林分断面积平均胸径Dg是反映林木粗度的基本指标[27],其值越大,表明林分内每株单木对生长空间的平均占有度越小,故而单木胸径年平均生长量越小[20]D0越大,则说明单木的生长优势越大,当D0达到一定大小时,单木生长渐缓[20]。林木的生长量的大小以及生长速率受到树木自身遗传因素以及外界环境条件双重因素的影响,经树木内部生理生化的复杂过程,表现在直径等因子的生长变化过程中,故而不同树种的胸径年平均生长量存在一定的差异。

    • 本研究发现,单木胸径年平均生长量受气候因子的影响较小,相对重要性低于20.00%,44个气候因子中,每个因子对单木胸径年平均生长量的影响均较小(< 1%),其中,Pratio、Asr、Gspgsrh以及Gssr是4个相对重要性均靠前的变量。胸径年平均生长量随Pratio的增加而呈现出缓慢下降的趋势,而随Asr、Gspgsrh以及Gssr的增加而呈现出缓慢升高的趋势。太阳辐射是林木光合作用最基本的能量来源,林木生长与光合作用密不可分,光合作用所产生的有机物质促进林木生长。林木在生长季时,雨量充沛,当降雨过多时,可能使得太阳辐射时长变短,光合作用所产生的有机物质减少,不利于林木生长。林木在非生长季时,雨量较少,水分缺少间接地导致光合作用下降,也不利于林木生长。Pratio越大,说明生长季降水量占年均降水量比例越大,故而单木胸径年平均生长量随Pratio的增加而呈现出缓慢下降的趋势。太阳辐射时长越长,则光合作用所产生的有机物质越多,越有利于林木生长,故而单木胸径年平均生长量随Asr以及Gssr的增加而增加。生长季相对湿度与生长季的天气状况相关,生长季太阳辐射时长越长,则生长季相对湿度越小。当生长季平均降水量一定时,生长季相对湿度越小表征着生长季太阳辐射时长越长,林木生长较好;生长季相对湿度越小则Gspgsrh越大,故而胸径年平均生长量随Gspgsrh的增加而增加。本研究与余黎等[20]的研究类似,余黎等[20]的研究表明单木胸径年平均生长量受气候因子的影响较小,而竞争指数以及林木大小因子是影响单木胸径年平均生长量的主要因子。

      然而,由于本文所用林木数据来自汪清林业局金沟岭林场,并基于该林场范围内的气候数据来建模,这样气候数据的空间差异也许不能够得到充分体现[20]。这可能是本文气候因子对单木胸径年平均生长量影响较小的原因。下一步可以尝试利用更大范围内的气候数据探究气候对单木胸径生长量的影响。

    • 本研究以东北林区落叶松−云冷杉针阔混交林25年(1986—2010年)间连续调查数据作为研究材料,候选气候和林分因子52个,基于随机森林算法,利用10折交叉验证技术建立了包含竞争、林木大小以及气候的单木胸径生长模型,分析了竞争指数、林木大小以及气候因子对单木胸径年平均生长量的影响。结果表明,随机森林模型的模型表现相对稳定,利用默认的超参数mtry就能获取很好的模型结果;随机森林模型能够较好地解析各变量与单木胸径年平均生长量之间复杂的关系,且建模前不需要进行统计假设和预定具体的模型形式;结点纯度提升法和OOB置换法这两种变量重要性度量方法的运行结果基本相同;竞争指数和林木大小对单木胸径年平均生长量的影响极大,而气候影响较小。总体而言,局部尺度气候因子包含较少的单木胸径年平均生长量预测信息,对胸径生长变化的解释能力有限。随机森林算法具有一定的泛化能力和统计可靠性,产生的变量重要性和偏依赖图具有合理的林学意义,可用于树木生长的预测和影响因子分析。

参考文献 (27)

目录

    /

    返回文章
    返回