高级检索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于随机森林的杉木适生性预测研究

高若楠 苏喜友 谢阳生 雷相东 陆元昌

高若楠, 苏喜友, 谢阳生, 雷相东, 陆元昌. 基于随机森林的杉木适生性预测研究[J]. 北京林业大学学报, 2017, 39(12): 36-43. doi: 10.13332/j.1000-1522.20170260
引用本文: 高若楠, 苏喜友, 谢阳生, 雷相东, 陆元昌. 基于随机森林的杉木适生性预测研究[J]. 北京林业大学学报, 2017, 39(12): 36-43. doi: 10.13332/j.1000-1522.20170260
GAO Ruo-nan, SU Xi-you, XIE Yang-sheng, LEI Xiang-dong, LU Yuan-chang. Prediction of adaptability of Cunninghamia lanceolata based on random forest[J]. Journal of Beijing Forestry University, 2017, 39(12): 36-43. doi: 10.13332/j.1000-1522.20170260
Citation: GAO Ruo-nan, SU Xi-you, XIE Yang-sheng, LEI Xiang-dong, LU Yuan-chang. Prediction of adaptability of Cunninghamia lanceolata based on random forest[J]. Journal of Beijing Forestry University, 2017, 39(12): 36-43. doi: 10.13332/j.1000-1522.20170260

基于随机森林的杉木适生性预测研究

doi: 10.13332/j.1000-1522.20170260
基金项目: 

中央级公益性科研院所基本科研业务费专项 IFRIT201501

林业公益性行业科研专项 201504303

详细信息
    作者简介:

    高若楠。主要研究方向:林业信息处理技术。Email: gao_rn0830@163.com  地址:100083 北京市海淀区清华东路35号北京林业大学信息学院

    通讯作者:

    苏喜友,博士,副教授。主要研究方向:林业资源管理、林业信息分析。Email: suxiyou@163.com  地址:同上

  • 中图分类号: S758.5+2;S791.27

Prediction of adaptability of Cunninghamia lanceolata based on random forest

  • 摘要: 以中国林业科学研究院热带林业实验中心杉木树种为研究对象,从森林资源二类调查数据中提取优势树种为杉木的小班,将样本数据按7:3的比例分为训练样本和测试样本。以海拔、地貌类型、坡度、坡向、坡位、土壤种类、成土母岩、土壤厚度、腐殖质层厚度为输入变量,以杉木生长适宜性为输出变量,运用随机森林算法建立杉木适生性预测模型,对不同立地条件下的造林地进行杉木适生性预测。同时,利用随机森林模型的变量重要性评估功能,分析了各立地因子对杉木生长的影响权重。结果表明:基于随机森林的杉木适生性预测模型的训练精度为84.3%,泛化精度达到89.5%,具有较高的预测准确率;研究区域内对杉木生长影响较大的立地因子依次为坡度、坡向、腐殖质层厚、海拔,影响因素较小的是土壤种类、土层厚度;就单因素的影响而言,海拔≥350 m的低山和中山地区,坡度在25°~34°之间比较适宜杉木生长。基于随机森林的杉木适生性预测模型可处理复杂的非线性关系,可将模型应用到无林地的造林决策,实现有林地与无林地对杉木适生性判断的有机统一,也可推广到其他树种,为适地适树提供依据。
  • 图  1  随机森林的生成步骤

    Figure  1.  Generation steps for the random forest model

    图  2  模型构建流程图

    Figure  2.  Flowchart of model building

    图  3  模型错误率与ntree的关系

    Figure  3.  Relation between model error rate and ntree

    图  4  立地因子重要性排序

    Figure  4.  Importance ranking of site factors

    图  5  坡度、海拔对杉木生长的影响

    Figure  5.  Effects of slope degree and altitude on growth of Cunninghamia lanceolate

    表  1  杉木生长信息

    Table  1.   Growth information of Cunninghamia lanceolata

    小班号
    No. of
    sub-compartment
    地貌类型
    Physiognomy
    type
    海拔
    Altitude/
    m
    坡向
    Slope
    aspect
    坡度
    Slope degree/
    (°)
    坡位
    Slope
    position
    土壤厚度
    Soil thickness/
    cm
    腐殖质层
    厚度
    Humus layer
    thickness/
    cm
    土壤种类
    Soil type
    成土母岩
    Parent rock
    平均
    年龄/a
    Mean
    age/year
    优势木
    平均高
    Mean
    height of
    dominant
    tree/m
    1 丘陵Hill 290 南South 20 脊Ridge 180 1 赤红壤
    Latosolic
    red soil
    砂岩Sandstone 25 17.5
    2 丘陵Hill 370 西南
    Southwest
    30 中坡Middle
    slope
    100 1 赤红壤
    Latosolic
    red soil
    砂岩
    Sandstone
    25 17.5
    3 低山Lower
    mountain
    350 东北
    Northeast
    28 下坡
    Downhill
    160 1 赤红壤
    Latosolic
    red soil
    砂岩
    Sandstone
    19 17.5
    4 丘陵Hill 200 西West 36 下坡
    Downhill
    70 1 赤红壤
    Latosolic
    red soil
    砂岩
    Sandstone
    19 17.7
    5 低山Lower
    mountain
    860 东East 30 上坡Uphill 70 1 赤红壤
    Latosolic
    red soil
    砂岩
    Sandstone
    25 15.2
    6 中山Middle
    mountain
    660 南South 33 中坡Middle
    slope
    70 2 赤红壤
    Latosolic
    red soil
    砂岩
    Sandstone
    18 12.3
    7 丘陵Hill 273 北North 21 下坡
    Downhill
    80 2 紫色土
    Purple soil
    砂岩
    Sandstone
    19 11.8
    8 丘陵Hill 415 无坡向No
    slope aspect
    30 中坡Middle
    slope
    130 10 赤红壤
    Latosolic
    red soil
    岩浆岩
    Magmatic
    rock
    17 16.5
    9 低山Lower
    mountain
    590 西北
    Northwest
    15 谷地Valley 130 10 红壤
    Red soil
    岩浆岩
    Magmatic
    rock
    21 19.6
    10 低山Lower
    mountain
    580 北North 30 下坡
    Downhill
    130 5 黄红壤
    Yellow-red
    soil
    岩浆岩
    Magmatic
    rock
    23 17.8
    11 低山Lower
    mountain
    880 东南
    Southeast
    37 中坡Middle
    slope
    100 3 黄壤Yellow soil 岩浆岩
    Magmatic
    rock
    33 17.5
    下载: 导出CSV

    表  2  属性分级标准

    Table  2.   Attribute classification standard

    立地因子Site factor 分级标准Classification standard
    坡度
    Slope degree
    平坡:<5°;缓坡:5°~14°;斜坡:15°~24°;陡坡:25°~34°;急坡:35°~44°;险坡:≥45°
    Flat slope:<5°; Gentle slope: 5°-14°; Incline slope: 15°-24°; Steep slope: 25°-34°;
    Sharp slope: 35°-44°; Dangerously steep slope: ≥45°
    土壤厚度
    Soil thickness
    厚:≥80 cm;中:40~79 cm;薄:<40 cm
    Thick: ≥80 cm; Medium: 40-79 cm; Thin:<40 cm
    腐殖质层厚度
    Humus layer thickness
    厚:≥20 cm;中:10~19 cm;薄:<10 cm
    Thick: ≥20 cm; Medium: 10-19 cm; Thin:<10 cm
    海拔
    Altitude
    Ⅰ级:<350 m;Ⅱ级:350~750 m;Ⅲ级:750~1 050 m;Ⅳ级:>1 050 m
    Grade Ⅰ:<350 m; Grade Ⅱ: 350-750 m; Grade Ⅲ: 750-1 050 m; Grade Ⅳ:>1 050 m
    下载: 导出CSV

    表  3  平衡前后各样本构成情况

    Table  3.   Composition of samples before and after balance

    样本类别
    Sample classification
    正样本
    Positive
    sample
    负样本
    Negative
    sample
    合计
    Total
    原始样本Original sample 244 111 355
    平衡后样本Sample after balance 333 333 666
    下载: 导出CSV

    表  4  不同的mtry取值对应误差的大小

    Table  4.   Errors corresponding to different mtry values

    随机特征个数
    Number of random feature(mtry)
    1 2 3 4 5 6 7 8 9
    误差率Error rate 0.263 0.200 0.165 0.156 0.162 0.170 0.161 0.162 0.167
    下载: 导出CSV

    表  5  混淆矩阵

    Table  5.   Confused matrix of predictive results

    实际类别
    Actual type
    预测类别Predictive type
    适宜Adaptability 不适宜Inadaptability
    适宜Adaptability TP FN
    不适宜Inadaptability FP TN
    注:TP代表真正类,即模型预测结果为适宜生长,且实际情况也为适宜;FP代表假正类,即模型预测结果为适宜生长,但实际情况为不适宜;TN代表真负类,即模型预测结果为不适宜生长,且实际情况也为不适宜;FN代表假负类,即模型预测结果为不适宜生长,但实际情况为适宜。Notes:TP(true positive) implies that the predicted result and the reality are both the adaptability;FP(false positive) implies that the predicted result is the adaptability, but the reality is the opposite;TN(true negative) implies that the predicted result and the reality are both the inadaptability;FN(false negative) implies that the predicted result is the inadaptability, but the reality is the opposite.
    下载: 导出CSV

    表  6  随机森林模型混淆矩阵

    Table  6.   Confusion matrix of random forest model

    实际类别
    Actual type
    预测类别Predictive type 分类误差率
    Classification
    error rate/%
    适宜
    Adaptability
    不适宜
    Inadaptability
    适宜Adaptability 202 29 12.5
    不适宜Inadaptability 44 191 18.7
    下载: 导出CSV

    表  7  测试数据预测结果

    Table  7.   Predicted results of test samples

    实际类别
    Actual type
    预测类别Predictive type
    适宜Adaptability 不适宜Inadaptability
    适宜Adaptability 95 16
    不适宜Inadaptability 7 82
    下载: 导出CSV

    表  8  模型判断结果

    Table  8.   Predicted results of models

    地类
    Land
    type
    地貌类型
    Physiognomy
    type
    海拔
    Altitude/
    m
    坡向
    Slope
    aspect
    坡度
    Slope
    degree/
    (°)
    坡位
    Slope
    position
    土壤厚度
    Soil
    thickness/
    cm
    腐殖质层
    厚度Humus
    layer
    thickness/cm
    土壤种类
    Soil type
    成土母岩
    Parent
    rock
    立地
    指数
    Site
    index
    模型预测结果
    Predicted results of model
    不适宜性概率
    Probability of
    inadaptability
    适宜性概率
    Probability align="center" class="table_top_border2" of
    adaptability
    结果
    Result
    有林地
    Forest land
    丘陵Hill 250 西北
    Northwest
    26 中坡
    Middle slope
    95 1 赤红壤Latosolic
    red soil
    砂岩Sandstone 18 0.057 0.948 适宜
    Adaptability
    低山Lower
    mountain
    420 东北
    Northeast
    20 下坡
    Downhill
    90 1 赤红壤
    Latosolic red soil
    岩浆岩
    Magmatic rock
    22 0.008 0.992 适宜
    Adaptability
    低山Lower
    mountain
    290 西北
    Northwest
    32 上坡Uphill 90 1 赤红壤
    Latosolic red soil
    砂岩Sandstone 10 0.935 0.065 不适宜
    Inadaptability
    无林地
    Non-forest land
    低山Lower mountain 780 北North 17 上坡Uphill 70 1 赤红壤
    Latosolic red soil
    砂岩Sandstone 0.843 0.157 不适宜
    Inadaptability
    丘陵Hill 360 东北
    Northeast
    22 中坡
    Middle slope
    80 1 赤红壤
    Latosolic red soil
    岩浆岩
    Magmatic rock
    0.118 0.882 适宜
    Adaptability
    低山Lower
    mountain
    670 西
    West
    15 中坡
    Middle slope
    70 10 赤红壤
    Latosolic red soil
    砂岩Sandstone 0.177 0.823 适宜
    Adaptability
    下载: 导出CSV
  • [1] 黄云鹏.森林培育学[M].北京:高等教育出版社, 2002.

    HUANG Y P.Silviculture[M].Beijing:Higher Education Press, 2002.
    [2] 郭艳荣, 刘洋, 吴保国.福建省宜林地立地质量的分级与数量化评价[J].东北林业大学学报, 2014, 42(10):54-59. doi:  10.3969/j.issn.1000-5382.2014.10.012

    GUO Y R, LIU Y, WU B G.Evaluating dividing rank and quantification of site quality of suitable land for forest in Fujian Province, China[J].Journal of Northeast Forestry University, 2014, 42(10):54-59. doi:  10.3969/j.issn.1000-5382.2014.10.012
    [3] CURT T, BOUCHAUD M, AGRECH G.Predicting site index of Douglasfir plantations from ecological variables in the Massif Central area of France[J].Forest Ecology and Management, 2001, 149(1):61-74. http://cn.bing.com/academic/profile?id=33a58ff18489b10367956465b4786ef8&encoded=0&v=paper_preview&mkt=zh-cn
    [4] LOUWA J H, SCHOLES M.Forest site classification and evaluation:a South African perspective[J].Forest Ecology and Management, 2002, 171(1-2):153-168. doi:  10.1016/S0378-1127(02)00469-3
    [5] 张伏全, 魏汗功, 陈远材.滇西南地区立地龙竹质量评价的研究[J].林业科学, 1994, 30(2):104-110. http://www.cnki.com.cn/Article/CJFDTotal-LYKE402.001.htm

    ZHANG F Q, WEI H G, CHEN Y C.Study on site quality evaluation of fragon bamboo in Southwest Yunnan[J].Scientia Silvae Sinicae, 1994, 30(2):104-110. http://www.cnki.com.cn/Article/CJFDTotal-LYKE402.001.htm
    [6] 黄家荣, 马天晓, 王艳梅, 等.基于BP网络的无林地立地质量评价模型研究[J].山地农业生物学报, 2006, 25(6):479-483. doi:  10.3969/j.issn.1008-0457.2006.06.003

    HUANG J R, MA T X, WANG Y M, et al.Forest site evaluation model studies on the basis of BP Neural Network[J].Journal of Mountain Agriculture and Biology, 2006, 25(6):479-483. doi:  10.3969/j.issn.1008-0457.2006.06.003
    [7] IVERSON L R, PRASAD A M, MATTHEWS S N, et al.Estimating potential habitat for 134 eastern US tree species under six climate scenarios[J].Forest Ecology and Management, 2008, 254:390-406. doi:  10.1016/j.foreco.2007.07.023
    [8] PRASAD A M, IVERSON L R, LIAW A.Newer classification and regression tree technique:bagging and random forests for ecological prediction[J].Ecosystems, 2006, 9(2):181-199. doi:  10.1007/s10021-005-0054-1
    [9] DONG L J, LI X B.Prediction of rockburst classification using random forest[J].Transaction of Nonferrous Metals Society of China, 2013, 23(2):472-477. doi:  10.1016/S1003-6326(13)62487-5
    [10] 余坤勇, 姚雄, 邱祁荣, 等.基于随机森林模型的山体滑坡空间预测研究[J].农业机械学报, 2016, 47(10):338-345. doi:  10.6041/j.issn.1000-1298.2016.10.043

    YU K Y, YAO X, QIU Q R, et al.Landslide spatial prediction based on random forest model[J].Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(10):338-345. doi:  10.6041/j.issn.1000-1298.2016.10.043
    [11] 张雷, 王琳, 张旭东, 等.随机森林算法基本思想及其在生态学中的应用:以云南松分布模拟为例[J].生态学报, 2014, 34(3):650-659. http://d.old.wanfangdata.com.cn/Periodical/stxb201403015

    ZHANG L, WANG L, ZHANG X D, et al. The basic principle of random forest and its application in ecology: a case study of Pinus yunnanensis[J].Acta Ecologica Sinica, 2014, 34(3):650-659. http://d.old.wanfangdata.com.cn/Periodical/stxb201403015
    [12] 赖成光, 陈晓宏, 赵仕威, 等.基于随机森林的洪灾风险评价模型及其应用[J].水利学报, 2015, 46(1):59-65. http://d.old.wanfangdata.com.cn/Periodical/slxb201501008

    LAI C G, CHEN X H, ZHAO S W, et al.Flood risk assessment model and its application based on random forest[J].Journal of Hydraulic Engineering, 2015, 46(1):59-65. http://d.old.wanfangdata.com.cn/Periodical/slxb201501008
    [13] 邢海涛, 陆元昌, 刘宪钊, 等.基于近自然改造的马尾松林分竞争强度研究[J].北京林业大学学报, 2016, 38(9):42-53. doi:  10.13332/j.1000-1522.20160023

    XING H T, LU Y C, LIU X Z, et al.Competiiton intensity of Pinus massoniana stand based on close-to-nature management[J].Journal of Beijing Forestry University, 2016, 38(9):42-53. doi:  10.13332/j.1000-1522.20160023
    [14] BREIMAN L. Random forests[J].Machine Learning, 2001, 45(1):5-32. doi:  10.1023/A:1010933404324
    [15] 张洪强, 刘光远, 赖祥伟.随机森林在肌电的重要特征选择中的应用[J].计算科学, 2013, 40(1):200-202. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjkx201301046

    ZHANG H Q, LIU G Y, LAI X W. Application of random forest algorithm in important feature selection form EMG signal[J].Computer Science, 2013, 40(1):200-202. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjkx201301046
    [16] 李新海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报, 2013, 50(4):1190-1197. http://d.old.wanfangdata.com.cn/Periodical/kczs201304041

    LI X H.Using"random forest" for classification and regression[J].Chinese Journal of Applied Entomology, 2013, 50(4):1190-1197. http://d.old.wanfangdata.com.cn/Periodical/kczs201304041
    [17] 齐颜君, 王丹, 孙喜林, 等.适地适树的意义与数量标准[J].现代农业科技, 2013(1):169. doi:  10.3969/j.issn.1007-5739.2013.01.104

    QI Y J, WANG D, SUN X L, et al. The meaning and quantity standard of matching species with the site[J].Modern Agriculture Science and Technology, 2013(1):169. doi:  10.3969/j.issn.1007-5739.2013.01.104
    [18] 孟宪宇.测树学[M].北京:中国林业出版社, 2006.

    MENG X Y. Forest measurement[M]. Beijing: China Forestry Publishing House, 2006.
    [19] 姚山.基于数据挖掘技术的造林决策研究[D].北京: 北京林业大学, 2008. http://cdmd.cnki.com.cn/Article/CDMD-10022-2008085015.htm

    YAO S.Study on afforestation decision based on data mining[D]. Beijing: Beijing Forestry University, 2008. http://cdmd.cnki.com.cn/Article/CDMD-10022-2008085015.htm
    [20] 曹正凤.随机森林算法优化研究[D].北京: 首都经济贸易大学, 2014. http://cdmd.cnki.com.cn/Article/CDMD-11912-1014220587.htm

    CAO Z F.Study on optimization of random forests algorithm[D]. Beijing: Capital University of Economics and Business, 2014. http://cdmd.cnki.com.cn/Article/CDMD-11912-1014220587.htm
    [21] CHWLA N V, BOWYER K W, HALL L O, et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research, 2011, 16(1):321-357. http://d.old.wanfangdata.com.cn/Periodical/dianzixb200911024
    [22] 李婉华, 陈宏, 郭坤, 等.基于随机森林算法的用电负荷预测研究[J].计算机工程与应用, 2016, 52(23):236-243. doi:  10.3778/j.issn.1002-8331.1606-0203

    LI W H, CHEN H, GUO K, et al.Research on electrical load prediction based on random forest algorithm[J].Computer Engineering and Applications, 2016, 52(23):236-243. doi:  10.3778/j.issn.1002-8331.1606-0203
    [23] 郭颖婕, 刘晓燕, 郭茂祖, 等.植物抗性基因识别中的随机森林分类方法[J].计算科学与探索, 2012, 6(1):67-77. http://d.old.wanfangdata.com.cn/Periodical/jsjkxyts201201005

    GUO Y J, LIU X Y, GUO M Z, et al.Identification of plant resistance gene with random forest[J].Journal of Frontiers of Computer Science and Technology, 2012, 6(1):67-77. http://d.old.wanfangdata.com.cn/Periodical/jsjkxyts201201005
  • [1] 吴夏雷, 韩超, 孙宇涵, 曹森, 胡瑞阳, 徐金良, 郑会全, 李云.  杉木体细胞胚胎发生胚性愈伤组织诱导条件的优化 . 北京林业大学学报, 2020, 42(2): 79-86. doi: 10.12171/j.1000-1522.20190196
    [2] 李萍, 张源, 吴义强, 吕建雄, 袁光明, 左迎峰.  硅酸盐浸渍改性对杉木视觉物理量的影响 . 北京林业大学学报, 2020, 42(): 122-129. doi: 10.12171/j.1000-1522.20200189
    [3] 欧强新, 雷相东, 沈琛琛, 宋国涛.  基于随机森林算法的落叶松−云冷杉混交林单木胸径生长预测 . 北京林业大学学报, 2019, 41(9): 9-19. doi: 10.13332/j.1000-1522.20180266
    [4] 耿丹, 夏朝宗, 张国斌, 刘晓东, 康峰峰.  杉木人工林灌木层生物量模型构建 . 北京林业大学学报, 2018, 40(3): 34-41. doi: 10.13332/j.1000-1522.20170257
    [5] 张胜龙, 刘京晶, 楼雄珍, 刘洋, 童再康, 黄华宏.  杉木应压木木质部细胞形态特征及主要代谢成分表征 . 北京林业大学学报, 2015, 37(5): 126-133. doi: 10.13332/j.1000-1522.20140396
    [6] 赵明瑶, 刘会云, 张晓丽, 焦志敏, 姚智, 杨铭.  基于林分结构响应的PALSAR森林结构参数估测 . 北京林业大学学报, 2015, 37(6): 61-69. doi: 10.13332/j.1000-1522.20140402
    [7] 黄建, FalkHuettmann, 郭玉民.  黑龙江流域白头鹤繁殖栖息地选择模型预测 . 北京林业大学学报, 2015, 37(8): 40-47. doi: 10.13332/j.1000-1522.20140178
    [8] 李际平, 封尧, 赵春燕, 张彩彩.  基于Voronoi 图的杉木生态公益林空间结构量化分析 . 北京林业大学学报, 2014, 36(4): 1-7. doi: 10.13332/j.cnki.jbfu.2014.04.005
    [9] 吴迪, 范文义.  激光雷达协同多角度光学遥感数据反演树高 . 北京林业大学学报, 2014, 36(4): 8-15. doi: 10.13332/j.cnki.jbfu.2014.04.006
    [10] 张淑琴, 费本华, 余雁, 邢新婷, 王汉坤.  杉木木材纵向弹性模量二元预测模型的构建 . 北京林业大学学报, 2012, 34(1): 123-126.
    [11] 张淑琴, 余雁, 费本华, 王汉坤.  杉木木材管胞纵向弹性模量的研究 . 北京林业大学学报, 2012, 34(6): 126-130.
    [12] 李延军, 唐荣强, 鲍滨福, 孙会.  高温热处理杉木力学性能与尺寸稳定性研究 . 北京林业大学学报, 2010, 32(4): 232-236.
    [13] 于丽丽, 高巍, 曹金珍, 唐镇忠.  微波后处理对ACQ-D处理杉木抗水流失性的影响 . 北京林业大学学报, 2009, 31(6): 90-96.
    [14] 李春明.  利用非线性混合模型进行杉木林分断面积生长模拟研究 . 北京林业大学学报, 2009, 31(1): 44-49.
    [15] 黄华宏, 陈奋学, 童再康, 朱玉球.  矮生杉木光合特性及叶绿素荧光参数研究 . 北京林业大学学报, 2009, 31(2): 69-73.
    [16] 于丽丽, 郭宁, 曹金珍.  通风条件对ACQ-D处理杉木中铜固着的加速作用 . 北京林业大学学报, 2008, 30(5): 123-128.
    [17] 刘智, 曹金珍, .  ACQ-D处理后杉木的拉应力松弛 . 北京林业大学学报, 2008, 30(2): 119-123.
    [18] 胡淑萍, 余新晓, 孙庆艳, 王小平, 秦永胜, 陈俊崎, .  北京山区优势针叶树种侧柏适地性研究 . 北京林业大学学报, 2008, 30(supp.2): 112-116.
    [19] 吕文华, 金则新, 于文吉, 李俊, 李黎, 武林, 奚如春, 周睿, 张春晓, 邵杰, 雷妮娅, 刘足根, 张志山, 郑景明, 陆平, 索安宁, 周艳萍, 宋先亮, 郎璞玫, 马玲, 许景伟, 焦雯珺, 于海霞, 吴家兵, 孙志蓉, 张建军, 高克昌, 葛剑平, 蔡锡安, 翟明普, 习宝田, 陈少良, 李钧敏, 毕华兴, 赵广杰, 赵文喆, 关德新, 余养伦, 郑红娟, Kwei-NamLaw, 赵秀海, 张小由, 盖颖, 于志明, 陈勇, 纳磊, 朱清科, 李传荣, 马履一, 韦方强, 戴伟, 朱教君, 饶兴权, 夏良放, 朱艳燕, 李笑吟, 杨永福, 王天明, 谭会娟, 张春雨, 王文全, 于波, ClaudeDaneault, 张弥, 王瑞刚, 崔鹏, 江泽慧, 曾小平, 马履一, 袁小兰, 赵平, 李俊清, 张宇清, 李增鸿, 贾桂霞, 方家强, 樊敏, 李丽萍, 吴秀芹, 刘丽娟, 韩士杰, 王卫东, 唐晓军, 王贺新, 李庆卫, 邓宗付, 何明珠, 殷宁, 郭孟霞, 陈雪梅, 张欣荣, 袁飞, 贺润平, 王娜, 江杰, 毛志宏, 蒋湘宁, 王月海, 熊颖, 孔俊杰, 郑敬刚, 王旭琴, 于贵瑞, 刘鑫, 吴记贵, 王瑞辉, 王贵霞, 葛剑平, 孙晓敏, 聂立水, 李新荣, 林靓靓, 郭超颖, 董治良.  杉木木材/蒙脱土纳米复合材料的结构和表征 . 北京林业大学学报, 2007, 29(1): 131-135.
    [20] 王明枝, 李景文, 杨晓晖, 侯亚南, 马文辉, 刘震, 殷亚方, 李景文, 杨海龙, 熊瑾, 李梅, 
    王保平, 张秋英, 张一平, 龙玲, 饶良懿, 杜华强, 李全发, 符韵林, 李慧, 詹亚光, 宋小双, 黄国胜, 李俊清, 尹立辉, 徐峰, 梁机, 耿晓东, 范文义, 刘文耀, 王雪军, 张克斌, 李妮亚, 韩海荣, 陆熙娴, 秦瑶, 李俊清, 朱金兆, 王洁瑛, 朱金兆, 李发东, 赵敏, 窦军霞, 陈晓阳, 吕建雄, 李吉跃, 倪春, 秦素玲, 毕华兴, 康峰峰, 齐实, 陈素文, 陈晓阳, 刘雪梅, 乔杰, 慈龙骏, 沈有信, 李黎, 孙玉军, 赵宪文, 唐黎明, 李云, 欧国强, 于贵瑞, 刘桂丰, 李凤兰, 马钦彦, 李伟, 任海青, 文瑞钧, 朱国平, 赵双菊, 李伟, 张桂芹, 魏建祥, 宋献方, 韦广绥, 刘伦辉, 王雪, 王玉成, 蒋建平, 黎昌琼, 周海江, 杨谦, 宋清海, , 孙涛, 李慧, 丁霞, 张万军, 孙晓敏, 孙志强, 刘莹, 李宗然, 
    , .  南带产区不同立地类型间的杉木木材解剖 . 北京林业大学学报, 2005, 27(1): 10-13.
  • 加载中
图(5) / 表 (8)
计量
  • 文章访问数:  383
  • HTML全文浏览量:  110
  • PDF下载量:  11
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-07-19
  • 修回日期:  2017-11-28
  • 刊出日期:  2017-12-01

基于随机森林的杉木适生性预测研究

doi: 10.13332/j.1000-1522.20170260
    基金项目:

    中央级公益性科研院所基本科研业务费专项 IFRIT201501

    林业公益性行业科研专项 201504303

    作者简介:

    高若楠。主要研究方向:林业信息处理技术。Email: gao_rn0830@163.com  地址:100083 北京市海淀区清华东路35号北京林业大学信息学院

    通讯作者: 苏喜友,博士,副教授。主要研究方向:林业资源管理、林业信息分析。Email: suxiyou@163.com  地址:同上
  • 中图分类号: S758.5+2;S791.27

摘要: 以中国林业科学研究院热带林业实验中心杉木树种为研究对象,从森林资源二类调查数据中提取优势树种为杉木的小班,将样本数据按7:3的比例分为训练样本和测试样本。以海拔、地貌类型、坡度、坡向、坡位、土壤种类、成土母岩、土壤厚度、腐殖质层厚度为输入变量,以杉木生长适宜性为输出变量,运用随机森林算法建立杉木适生性预测模型,对不同立地条件下的造林地进行杉木适生性预测。同时,利用随机森林模型的变量重要性评估功能,分析了各立地因子对杉木生长的影响权重。结果表明:基于随机森林的杉木适生性预测模型的训练精度为84.3%,泛化精度达到89.5%,具有较高的预测准确率;研究区域内对杉木生长影响较大的立地因子依次为坡度、坡向、腐殖质层厚、海拔,影响因素较小的是土壤种类、土层厚度;就单因素的影响而言,海拔≥350 m的低山和中山地区,坡度在25°~34°之间比较适宜杉木生长。基于随机森林的杉木适生性预测模型可处理复杂的非线性关系,可将模型应用到无林地的造林决策,实现有林地与无林地对杉木适生性判断的有机统一,也可推广到其他树种,为适地适树提供依据。

English Abstract

高若楠, 苏喜友, 谢阳生, 雷相东, 陆元昌. 基于随机森林的杉木适生性预测研究[J]. 北京林业大学学报, 2017, 39(12): 36-43. doi: 10.13332/j.1000-1522.20170260
引用本文: 高若楠, 苏喜友, 谢阳生, 雷相东, 陆元昌. 基于随机森林的杉木适生性预测研究[J]. 北京林业大学学报, 2017, 39(12): 36-43. doi: 10.13332/j.1000-1522.20170260
GAO Ruo-nan, SU Xi-you, XIE Yang-sheng, LEI Xiang-dong, LU Yuan-chang. Prediction of adaptability of Cunninghamia lanceolata based on random forest[J]. Journal of Beijing Forestry University, 2017, 39(12): 36-43. doi: 10.13332/j.1000-1522.20170260
Citation: GAO Ruo-nan, SU Xi-you, XIE Yang-sheng, LEI Xiang-dong, LU Yuan-chang. Prediction of adaptability of Cunninghamia lanceolata based on random forest[J]. Journal of Beijing Forestry University, 2017, 39(12): 36-43. doi: 10.13332/j.1000-1522.20170260
  • 适地适树一直是造林决策的关键问题之一,提高森林质量需要遵循适地适树的原则。适地适树就是使造林树种的特性,主要是使生态学特性和造林地的立地条件相适应,以充分发挥生产潜力,达到该立地在当前技术经济条件下可能达到的高产水平[1]。对于有林地而言,可以通过优势木高与年龄构建地位指数模型等来判断树种的适生性。但是,对于已知立地条件的无林地,判断其是否适宜树种的生长,只能通过有林地立地的相关因子来确定[2]。Curt等[3]和Louwa等[4]构建了立地因子与立地指数之间的多元回归方程,应用立地因子对立地指数进行评估,并得到广泛应用。郭艳荣等[2]和张伏全等[5]应用数量化模型的方法,构建林木地位指数得分表,从而可以预测林木的生长情况。但是, 树种的生长适宜性与立地因子之间通常是复杂的非线性关系,因子之间也可能存在交互作用, 以往的模型一般通过简化假设进行表述,不能准确描述复杂的关系。随着人工智能技术的发展,机器学习的方法也开始应用于立地研究。黄家荣等[6]以马尾松(Pinus massoniana)为例,应用BP神经网络建立了立地因子与立地指数之间的关系,平均精度为86.06%,获得了比多元回归模型更高的预测精度。但是BP神经网络存在训练时间较长,预测能力与泛化能力矛盾,易出现过拟合等弊端。

    随机森林(Random Forest)被誉为当前最好的机器学习算法之一[7],已经成功地被应用到许多领域[8-12]。随机森林能够有效地处理非线性、交互作用、共线性等问题,同时能够有效避免过拟合,不仅可以用于回归、分类、预测,而且还可以对变量进行重要性度量。目前极少有学者将随机森林模型应用到适地适树问题的研究中。本文以中国林业科学研究院热带林业实验中心(简称“热林中心”)的杉木(Cunninghamia lanceolata)树种为研究对象,针对主要立地因子对杉木生长的影响建立随机森林模型,研究树种适生性与立地因子之间的关系,预测不同立地条件下树种的适生情况,为适地适树研究探索一条新的途径,为造林决策的制定提供依据。

    • 中国林业科学研究院热带林业实验中心,地处广西西南边陲,位于21°57′47″~22°19′27″N,106°39′50″~106°59′30″E。横跨龙州、宁明两县及凭祥市。热林中心属南亚热带半湿润—湿润气候,境内日照充足,雨量充沛,全年日照时数1 218~1 620 h,年平均气温为20.5~21.7 ℃,极端高温40.3 ℃,极端低温-1.5 ℃,年平均降水量1 200~1 500 mm,年蒸发量1 261~1 388 mm;成土母岩主要有泥质砂岩、砾状灰岩、花岗岩和石灰岩等[13]。土壤以砖红性红壤、红壤为主。热林中心水资源丰富,水质较好,适合饮用和灌溉。人工林以马尾松和杉木为主,其次是红椎(Castanopsis hystrix)、格木(Erythrophleum fordii)、柚木(Tectona grandis)、西桦(Betula alnoides)等珍贵树种。

    • 本研究以2009年热林中心森林资源二类调查数据为基础数据,每个小班数据都包括立地因子和测树因子。选取优势树种为杉木的小班共355个,选取海拔、地貌类型、坡度、坡向、坡位、土壤种类、成土母岩、土壤厚度、腐殖质层厚度9个立地因子以及林分平均年龄、优势木平均高2个测树因子,构成杉木生长信息表(表 1)。

      表 1  杉木生长信息

      Table 1.  Growth information of Cunninghamia lanceolata

      小班号
      No. of
      sub-compartment
      地貌类型
      Physiognomy
      type
      海拔
      Altitude/
      m
      坡向
      Slope
      aspect
      坡度
      Slope degree/
      (°)
      坡位
      Slope
      position
      土壤厚度
      Soil thickness/
      cm
      腐殖质层
      厚度
      Humus layer
      thickness/
      cm
      土壤种类
      Soil type
      成土母岩
      Parent rock
      平均
      年龄/a
      Mean
      age/year
      优势木
      平均高
      Mean
      height of
      dominant
      tree/m
      1 丘陵Hill 290 南South 20 脊Ridge 180 1 赤红壤
      Latosolic
      red soil
      砂岩Sandstone 25 17.5
      2 丘陵Hill 370 西南
      Southwest
      30 中坡Middle
      slope
      100 1 赤红壤
      Latosolic
      red soil
      砂岩
      Sandstone
      25 17.5
      3 低山Lower
      mountain
      350 东北
      Northeast
      28 下坡
      Downhill
      160 1 赤红壤
      Latosolic
      red soil
      砂岩
      Sandstone
      19 17.5
      4 丘陵Hill 200 西West 36 下坡
      Downhill
      70 1 赤红壤
      Latosolic
      red soil
      砂岩
      Sandstone
      19 17.7
      5 低山Lower
      mountain
      860 东East 30 上坡Uphill 70 1 赤红壤
      Latosolic
      red soil
      砂岩
      Sandstone
      25 15.2
      6 中山Middle
      mountain
      660 南South 33 中坡Middle
      slope
      70 2 赤红壤
      Latosolic
      red soil
      砂岩
      Sandstone
      18 12.3
      7 丘陵Hill 273 北North 21 下坡
      Downhill
      80 2 紫色土
      Purple soil
      砂岩
      Sandstone
      19 11.8
      8 丘陵Hill 415 无坡向No
      slope aspect
      30 中坡Middle
      slope
      130 10 赤红壤
      Latosolic
      red soil
      岩浆岩
      Magmatic
      rock
      17 16.5
      9 低山Lower
      mountain
      590 西北
      Northwest
      15 谷地Valley 130 10 红壤
      Red soil
      岩浆岩
      Magmatic
      rock
      21 19.6
      10 低山Lower
      mountain
      580 北North 30 下坡
      Downhill
      130 5 黄红壤
      Yellow-red
      soil
      岩浆岩
      Magmatic
      rock
      23 17.8
      11 低山Lower
      mountain
      880 东南
      Southeast
      37 中坡Middle
      slope
      100 3 黄壤Yellow soil 岩浆岩
      Magmatic
      rock
      33 17.5
    • 随机森林是由Breiman于2001年提出的一种基于决策树的机器学习算法[14]。它是利用Bootstrap重抽样的方法从原始数据中抽取多个样本,对每个Bootstrap样本进行决策树建模,然后对多棵决策树的预测进行组合,通过投票的方式得出最终结果。大量的理论和实践都证明了随机森林具有很高的预测准确率,对异常值和噪声值具有很好的容忍度。

      随机森林的“随机化”体现在训练集的随机选取和待选特征的随机选取两个方面。其构建步骤如图 1所示:1)从原始训练集D有放回的抽取k个样本,构造D1D2,…,Dkk个子训练集,子训练集的数据量和原始训练集相同;2)利用k个子训练集构造k棵决策树,在决策树的分裂过程中,从所有的待选特征中随机选取一定特征,再从中选取最优的特征进行分割;3)k棵决策树得到k种分类结果;4)对k种分类结果进行投票表决,得出最终分类。

      图  1  随机森林的生成步骤

      Figure 1.  Generation steps for the random forest model

      另外,随机森林模型还具有特征重要性评估的功能,它提供了两种特征重要性度量的方法[15]

      1) 依据Gini指数的变化程度来反映每个特征的重要程度。Gini指数描述节点的不纯度,Gini指数越小,不纯度越低,决策树按照节点Gini指数最小原则进行分类,计算公式为:

      $$ {\rm{Gini}}\left( t \right) = 1 - \sum\limits_{i = 1}^k {{{[p(i|t)]}^2}} $$ (1)

      式中:p(i|t)为类别it节点处的概率,Gini(t)=0时表示t节点处的样本数据为同一类。

      计算特征j节点分割时Gini指数的减小值DGj,把森林中所有节点的DGj求和后对所有树取平均,用MeanDecreaseGini来表示,该值越大,表明特征j的重要性越大[16]

      2) 依据分类准确度降低的程度来反映每个特征的重要程度。随机森林在每次抽样时约有三分之一的数据未被抽中,即袋外(Out-of-Bag,OOB)数据,根据OOB数据计算模型中每棵树的OOB误差Er,然后随机打乱特征j的特征值,计算新的OOB误差Erj,特征j的重要性Vj表示为:

      $$ {V_j} = \sum\limits_{r = 1}^N {\left( {E_r^j - {E_r}} \right)} $$ (2)

      式中:N为决策树的数量。

      Vj进行标准化处理,用MeanDecrease-Accuracy来表示。MeanDecresseAccuracy值越大,表明该特征的重要性越大[16]

    • 本研究构建的杉木适生性预测模型流程:1)选取优势树种为杉木的小班;2)确定杉木树种生长适宜性的衡量标准;3)对样本数据进行预处理,同时将其按7:3比例分为训练样本和测试样本;4)利用训练样本构建随机森林模型,并用测试样本验证模型的精度;5)对给定立地因子的小班,将立地属性值输入随机森林模型,输出该小班适合杉木生长的概率,据此判断是否适生;6)对影响杉木生长的立地因子进行重要性评估及排序,分析单因素对于杉木生长的影响。图 2为模型构建流程图。

      图  2  模型构建流程图

      Figure 2.  Flowchart of model building

    • 衡量适地适树的数量标准主要有立地指数、材积生长量和立地期望值[17]。一个树种在成熟收获时的平均材积生长量不仅取决于立地条件,还决定于林分密度和经营水平,因此将材积生长量作为衡量指标比较复杂。立地期望值可以用来预测立地经济效益水平,但是由于木材生产的长期性与市场预测的矛盾,增加了立地经济评价的难度。立地指数是指在某一立地上特定基准年龄时林分优势木的平均高值[18]。它能够较好地反映立地性能与树种生长之间的关系,立地指数越大,说明树木在该立地上生长越好。本研究将立地指数作为判断杉木生长适宜性的标准,参考姚山[19]对于油松(Pinus tabuliformis)生长适宜性的划分依据,将立地指数大于或等于平均立地指数的小班,判定为比较适宜杉木生长的小班;将立地指数小于平均立地指数的小班,判定为比较不适宜杉木生长的小班。立地指数可由优势木平均高和平均年龄计算得出。本文杉木立地指数通过查阅热林中心已计算出的松杉立地指数表获得。

    • 连续变量离散化将进一步提高随机森林模型的预测精确率[20]。杉木生长立地信息表中,海拔、坡度、土壤厚度、腐殖质层厚度均属于连续型变量,将这3个立地因子按照《广西森林资源连续清查技术第七次复查操作细则》(2005年)指定的地形因子分级标准进行离散化;海拔则根据热林中心的实际情况进行分级。属性分级标准见表 2

      表 2  属性分级标准

      Table 2.  Attribute classification standard

      立地因子Site factor 分级标准Classification standard
      坡度
      Slope degree
      平坡:<5°;缓坡:5°~14°;斜坡:15°~24°;陡坡:25°~34°;急坡:35°~44°;险坡:≥45°
      Flat slope:<5°; Gentle slope: 5°-14°; Incline slope: 15°-24°; Steep slope: 25°-34°;
      Sharp slope: 35°-44°; Dangerously steep slope: ≥45°
      土壤厚度
      Soil thickness
      厚:≥80 cm;中:40~79 cm;薄:<40 cm
      Thick: ≥80 cm; Medium: 40-79 cm; Thin:<40 cm
      腐殖质层厚度
      Humus layer thickness
      厚:≥20 cm;中:10~19 cm;薄:<10 cm
      Thick: ≥20 cm; Medium: 10-19 cm; Thin:<10 cm
      海拔
      Altitude
      Ⅰ级:<350 m;Ⅱ级:350~750 m;Ⅲ级:750~1 050 m;Ⅳ级:>1 050 m
      Grade Ⅰ:<350 m; Grade Ⅱ: 350-750 m; Grade Ⅲ: 750-1 050 m; Grade Ⅳ:>1 050 m
    • 用机器学习的方法处理实际问题时,数据集不平衡会对模型性能造成影响。本次实验的355个训练样本中,适宜杉木生长(正样本)的有244个,不适宜杉木生长(负样本)的有111个,正样本明显多于负样本, 为了避免由于数据不平衡对分类结果产生偏差,实验对正负样本进行平衡化处理。过采样(增加少数类样本)以及欠采样(删减多数类样本)是数据平衡化经常采用的两种方式。由于本研究的样本量较小,所以采用过采样的方式。SMOTE算法是一种过采样方法,其在不平衡分类问题上得到广泛应用。算法的原理为假设两个距离较近的少数样本之间仍是少数类,对于原始少数样本中的每一个样本,选取距离其最近的k个少数样本,然后随机从k-近邻选取样本,人工合成新少数样本[21]。SMOTE算法可以通过R语言的DMwR包实现,平衡后的少数类样本数量是原少数类样本数的倍数,并且与多数类样本数量均衡。本研究为了不损失原正样本的数量,经SMOTE算法平衡后的负样本数量是原负样本数量的3倍(表 3)。

      表 3  平衡前后各样本构成情况

      Table 3.  Composition of samples before and after balance

      样本类别
      Sample classification
      正样本
      Positive
      sample
      负样本
      Negative
      sample
      合计
      Total
      原始样本Original sample 244 111 355
      平衡后样本Sample after balance 333 333 666
    • 本研究中随机森林模型的构建在R语言开源平台上实现,R语言提供了用于构建随机森林模型的程序包randomForest。随机森林具有两个非常重要的自定义参数,分别是分类树的数量ntree,以及分割节点的随机特征的个数mtry。这两个参数需要经过优化,以提高随机森林模型的预测准确率。参数mtry的确定:从1一直到数据集的总的特征个数,逐一尝试,通过对比误差率来寻找最优mtry。表 4为不同的mtry取值对应的模型误差的大小。

      表 4  不同的mtry取值对应误差的大小

      Table 4.  Errors corresponding to different mtry values

      随机特征个数
      Number of random feature(mtry)
      1 2 3 4 5 6 7 8 9
      误差率Error rate 0.263 0.200 0.165 0.156 0.162 0.170 0.161 0.162 0.167

      表 4中误差率的值可以发现,当mtry取值为4时,误差达到最小,所以建模时参数mtry的取值为4。参数ntree的设置过低,会导致模型的错误率偏高,设置过高会提升模型复杂度,降低效率。基于已经确定的mtry值,将模型错误率与ntree的关系可视化(图 3)。

      图  3  模型错误率与ntree的关系

      Figure 3.  Relation between model error rate and ntree

      图 3可以看出,当分类树的数量大于400以后,模型的误差率趋于稳定,因此建模时ntree取值为400。根据已经确定的参数,即mtry=4,ntree=400,建立随机森林模型。

    • 模型评价指标的计算通常基于以下4项指标:真正类(True Positive,TP),即模型预测适宜杉木生长,且实际适宜的样本个数;假正类(False Positive,FP),即模型预测适宜杉木生长,但实际不适宜的样本个数;真负类(True Negative,TN),即模型预测不适宜杉木生长,且实际不适宜的样本个数;假负类(False Negative,FN),即模型预测不适宜杉木生长,但实际适宜的样本个数。混淆矩阵可以直观地展示每个类别的预测详情[22],其每一列代表预测值,每一行代表实际的类别,主对角线元素为被正确分类的样本数,对角线以外的元素为错误分类数,结构如表 5所示。

      表 5  混淆矩阵

      Table 5.  Confused matrix of predictive results

      实际类别
      Actual type
      预测类别Predictive type
      适宜Adaptability 不适宜Inadaptability
      适宜Adaptability TP FN
      不适宜Inadaptability FP TN
      注:TP代表真正类,即模型预测结果为适宜生长,且实际情况也为适宜;FP代表假正类,即模型预测结果为适宜生长,但实际情况为不适宜;TN代表真负类,即模型预测结果为不适宜生长,且实际情况也为不适宜;FN代表假负类,即模型预测结果为不适宜生长,但实际情况为适宜。Notes:TP(true positive) implies that the predicted result and the reality are both the adaptability;FP(false positive) implies that the predicted result is the adaptability, but the reality is the opposite;TN(true negative) implies that the predicted result and the reality are both the inadaptability;FN(false negative) implies that the predicted result is the inadaptability, but the reality is the opposite.

      通常采用精度指标(Accuracy)来衡量模型的性能,主要包括训练精度和泛化精度[23]。精度指标(A)的计算公式见式(3)。在本研究中,实验数据按7:3的比例划分训练样本和测试样本。训练样本用来构建模型,测试样本用来检验模型的精度。

      $$ A = \frac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP}} + {\rm{TN}} + {\rm{FP}} + {\rm{FN}}}} $$ (3)
    • 表 6的混淆矩阵显示了基于训练数据构建的随机森林模型的预测结果, 训练精度为84.3%,总体误判率为15.7%。其中,模型对于杉木生长适宜性的误判率为12.5%,对于不适宜性的误判率为18.7%。将测试数据输入模型,进一步验证模型的预测准确率,输出预测结果(表 7)。模型的泛化精度为89.5%,说明预测结果较为满意。

      表 6  随机森林模型混淆矩阵

      Table 6.  Confusion matrix of random forest model

      实际类别
      Actual type
      预测类别Predictive type 分类误差率
      Classification
      error rate/%
      适宜
      Adaptability
      不适宜
      Inadaptability
      适宜Adaptability 202 29 12.5
      不适宜Inadaptability 44 191 18.7

      表 7  测试数据预测结果

      Table 7.  Predicted results of test samples

      实际类别
      Actual type
      预测类别Predictive type
      适宜Adaptability 不适宜Inadaptability
      适宜Adaptability 95 16
      不适宜Inadaptability 7 82
    • 将立地属性输入随机森林模型,可以输出杉木的适生性概率以及适生性判断结果。表 8举例说明了将有林地和无林地的立地条件分别输入模型得出的预测结果。有林地的立地指数已知,可以用来与模型的预测结果作对比,从而证明了将随机森林应用到适地适树研究中是可行的。

      表 8  模型判断结果

      Table 8.  Predicted results of models

      地类
      Land
      type
      地貌类型
      Physiognomy
      type
      海拔
      Altitude/
      m
      坡向
      Slope
      aspect
      坡度
      Slope
      degree/
      (°)
      坡位
      Slope
      position
      土壤厚度
      Soil
      thickness/
      cm
      腐殖质层
      厚度Humus
      layer
      thickness/cm
      土壤种类
      Soil type
      成土母岩
      Parent
      rock
      立地
      指数
      Site
      index
      模型预测结果
      Predicted results of model
      不适宜性概率
      Probability of
      inadaptability
      适宜性概率
      Probability align="center" class="table_top_border2" of
      adaptability
      结果
      Result
      有林地
      Forest land
      丘陵Hill 250 西北
      Northwest
      26 中坡
      Middle slope
      95 1 赤红壤Latosolic
      red soil
      砂岩Sandstone 18 0.057 0.948 适宜
      Adaptability
      低山Lower
      mountain
      420 东北
      Northeast
      20 下坡
      Downhill
      90 1 赤红壤
      Latosolic red soil
      岩浆岩
      Magmatic rock
      22 0.008 0.992 适宜
      Adaptability
      低山Lower
      mountain
      290 西北
      Northwest
      32 上坡Uphill 90 1 赤红壤
      Latosolic red soil
      砂岩Sandstone 10 0.935 0.065 不适宜
      Inadaptability
      无林地
      Non-forest land
      低山Lower mountain 780 北North 17 上坡Uphill 70 1 赤红壤
      Latosolic red soil
      砂岩Sandstone 0.843 0.157 不适宜
      Inadaptability
      丘陵Hill 360 东北
      Northeast
      22 中坡
      Middle slope
      80 1 赤红壤
      Latosolic red soil
      岩浆岩
      Magmatic rock
      0.118 0.882 适宜
      Adaptability
      低山Lower
      mountain
      670 西
      West
      15 中坡
      Middle slope
      70 10 赤红壤
      Latosolic red soil
      砂岩Sandstone 0.177 0.823 适宜
      Adaptability
    • 运用2.1中随机森林模型的两种变量重要性评估方法对9个立地因子进行重要性评估,分析其对杉木生长的影响程度。图 4体现了变量重要性评估的两种不同衡量指标,从图 4中可以看到这两个指标指示的变量重要性略有差距,但是差距不会很大。同时,模型给出的预测变量重要性估计表明在热林中心这个区域,选取的9个立地因子中,对杉木生长影响较大的是坡度、坡向、腐殖质层厚、海拔高,影响因素较小的是土壤种类和土层厚度。坡度、坡向的改变,对于太阳辐射、土壤肥力、气温等有一定的影响,因此坡度、坡向对杉木生长影响较大。随着海拔高度的变化,太阳辐射、空气湿度、土壤理化条件以及土壤中微生物的种类、活动强度等变化明显,表明海拔高是影响杉木生长的重要因素。热林中心杉木种植区域,土壤以赤红壤、红壤为主,种类较少,土层多较厚,所以土壤种类和土层厚度对杉木生长影响表现的不是很明显。

      图  4  立地因子重要性排序

      Figure 4.  Importance ranking of site factors

      随机森林模型也可以给出每个立地因子对于杉木生长适宜性的影响[16]图 5描绘了坡度和海拔对杉木适宜性生长的影响(离散化后)。从图 5可以看出,热林中心区域内,坡度在25°~34°之间、海拔在大于350 m的低山和中山地区比较适宜杉木生长。

      图  5  坡度、海拔对杉木生长的影响

      Figure 5.  Effects of slope degree and altitude on growth of Cunninghamia lanceolate

    • 本文将机器学习中的随机森林算法引入到适地适树问题中, 以热林中心的杉木树种为研究对象,从森林资源二类调查数据中选取355个优势树种为杉木的小班,从影响杉木生长的立地因子中选取9个较为重要的因子,建立了针对杉木适生性的随机森林模型。为了进一步提高模型精确率,对原始数据作了离散化和平衡化处理。实验结果证明该模型的训练精度为84.3%,泛化精度为89.5%,具有较高的分类准确率与预测准确率,可以对给定立地因子的造林地进行杉木适生性预测,从而实现有林地与无林地对杉木适生性判断的有机统一。同时,利用随机森林模型的变量重要性评估功能,分析了9个立地因子对杉木生长的影响程度,研究结果表明热林中心区域内,对杉木生长影响较大的立地因子为坡度、坡向、腐殖质层厚、海拔高,影响因素较小的是土壤种类及土层厚度。通过单因子对杉木的生长影响分析得出,适宜杉木生长的小班多处于低、中山地带,即海拔高于350 m的地区;坡度范围在25°~34°之间较适宜杉木生长。不同的立地条件组合对杉木的生长影响程度不同,因此在对杉木进行经营时,我们应客观考虑各立地因子的影响程度,使杉木的生长环境尽可能处于最佳组合状态,从而取得最佳效益。

      随机森林模型在没有显著增加运算量的前提下,可以提高分类与预测的准确率,无需事先设定指标权重,调节参数少,能够处理非线性、交互作用等问题,可用于变量重要性评估,模型本身具有算法上的优势,并且计算方便,可在R语言开源平台实现。本文的主要创新点就是将随机森林模型应用到适地适树问题中,并且得到了较为满意的结果。

      进一步的研究会考虑应用模型的回归功能建立立地因子与立地指数之间的关系,实现对无林地立地指数的预测。随机森林模型具有宽广的潜在应用范围,本研究所建立的模型只针对杉木树种,今后也可以建立其他树种的随机森林模型,为适地适树提供依据,从而更好地制定造林决策。

参考文献 (23)

目录

    /

    返回文章
    返回