-
适地适树一直是造林决策的关键问题之一,提高森林质量需要遵循适地适树的原则。适地适树就是使造林树种的特性,主要是使生态学特性和造林地的立地条件相适应,以充分发挥生产潜力,达到该立地在当前技术经济条件下可能达到的高产水平[1]。对于有林地而言,可以通过优势木高与年龄构建地位指数模型等来判断树种的适生性。但是,对于已知立地条件的无林地,判断其是否适宜树种的生长,只能通过有林地立地的相关因子来确定[2]。Curt等[3]和Louwa等[4]构建了立地因子与立地指数之间的多元回归方程,应用立地因子对立地指数进行评估,并得到广泛应用。郭艳荣等[2]和张伏全等[5]应用数量化模型的方法,构建林木地位指数得分表,从而可以预测林木的生长情况。但是, 树种的生长适宜性与立地因子之间通常是复杂的非线性关系,因子之间也可能存在交互作用, 以往的模型一般通过简化假设进行表述,不能准确描述复杂的关系。随着人工智能技术的发展,机器学习的方法也开始应用于立地研究。黄家荣等[6]以马尾松(Pinus massoniana)为例,应用BP神经网络建立了立地因子与立地指数之间的关系,平均精度为86.06%,获得了比多元回归模型更高的预测精度。但是BP神经网络存在训练时间较长,预测能力与泛化能力矛盾,易出现过拟合等弊端。
随机森林(Random Forest)被誉为当前最好的机器学习算法之一[7],已经成功地被应用到许多领域[8-12]。随机森林能够有效地处理非线性、交互作用、共线性等问题,同时能够有效避免过拟合,不仅可以用于回归、分类、预测,而且还可以对变量进行重要性度量。目前极少有学者将随机森林模型应用到适地适树问题的研究中。本文以中国林业科学研究院热带林业实验中心(简称“热林中心”)的杉木(Cunninghamia lanceolata)树种为研究对象,针对主要立地因子对杉木生长的影响建立随机森林模型,研究树种适生性与立地因子之间的关系,预测不同立地条件下树种的适生情况,为适地适树研究探索一条新的途径,为造林决策的制定提供依据。
-
中国林业科学研究院热带林业实验中心,地处广西西南边陲,位于21°57′47″~22°19′27″N,106°39′50″~106°59′30″E。横跨龙州、宁明两县及凭祥市。热林中心属南亚热带半湿润—湿润气候,境内日照充足,雨量充沛,全年日照时数1 218~1 620 h,年平均气温为20.5~21.7 ℃,极端高温40.3 ℃,极端低温-1.5 ℃,年平均降水量1 200~1 500 mm,年蒸发量1 261~1 388 mm;成土母岩主要有泥质砂岩、砾状灰岩、花岗岩和石灰岩等[13]。土壤以砖红性红壤、红壤为主。热林中心水资源丰富,水质较好,适合饮用和灌溉。人工林以马尾松和杉木为主,其次是红椎(Castanopsis hystrix)、格木(Erythrophleum fordii)、柚木(Tectona grandis)、西桦(Betula alnoides)等珍贵树种。
-
本研究以2009年热林中心森林资源二类调查数据为基础数据,每个小班数据都包括立地因子和测树因子。选取优势树种为杉木的小班共355个,选取海拔、地貌类型、坡度、坡向、坡位、土壤种类、成土母岩、土壤厚度、腐殖质层厚度9个立地因子以及林分平均年龄、优势木平均高2个测树因子,构成杉木生长信息表(表 1)。
表 1 杉木生长信息
Table 1. Growth information of Cunninghamia lanceolata
小班号
No. of
sub-compartment地貌类型
Physiognomy
type海拔
Altitude/
m坡向
Slope
aspect坡度
Slope degree/
(°)坡位
Slope
position土壤厚度
Soil thickness/
cm腐殖质层
厚度
Humus layer
thickness/
cm土壤种类
Soil type成土母岩
Parent rock平均
年龄/a
Mean
age/year优势木
平均高
Mean
height of
dominant
tree/m1 丘陵Hill 290 南South 20 脊Ridge 180 1 赤红壤
Latosolic
red soil砂岩Sandstone 25 17.5 2 丘陵Hill 370 西南
Southwest30 中坡Middle
slope100 1 赤红壤
Latosolic
red soil砂岩
Sandstone25 17.5 3 低山Lower
mountain350 东北
Northeast28 下坡
Downhill160 1 赤红壤
Latosolic
red soil砂岩
Sandstone19 17.5 4 丘陵Hill 200 西West 36 下坡
Downhill70 1 赤红壤
Latosolic
red soil砂岩
Sandstone19 17.7 5 低山Lower
mountain860 东East 30 上坡Uphill 70 1 赤红壤
Latosolic
red soil砂岩
Sandstone25 15.2 6 中山Middle
mountain660 南South 33 中坡Middle
slope70 2 赤红壤
Latosolic
red soil砂岩
Sandstone18 12.3 7 丘陵Hill 273 北North 21 下坡
Downhill80 2 紫色土
Purple soil砂岩
Sandstone19 11.8 8 丘陵Hill 415 无坡向No
slope aspect30 中坡Middle
slope130 10 赤红壤
Latosolic
red soil岩浆岩
Magmatic
rock17 16.5 9 低山Lower
mountain590 西北
Northwest15 谷地Valley 130 10 红壤
Red soil岩浆岩
Magmatic
rock21 19.6 10 低山Lower
mountain580 北North 30 下坡
Downhill130 5 黄红壤
Yellow-red
soil岩浆岩
Magmatic
rock23 17.8 11 低山Lower
mountain880 东南
Southeast37 中坡Middle
slope100 3 黄壤Yellow soil 岩浆岩
Magmatic
rock33 17.5 -
随机森林是由Breiman于2001年提出的一种基于决策树的机器学习算法[14]。它是利用Bootstrap重抽样的方法从原始数据中抽取多个样本,对每个Bootstrap样本进行决策树建模,然后对多棵决策树的预测进行组合,通过投票的方式得出最终结果。大量的理论和实践都证明了随机森林具有很高的预测准确率,对异常值和噪声值具有很好的容忍度。
随机森林的“随机化”体现在训练集的随机选取和待选特征的随机选取两个方面。其构建步骤如图 1所示:1)从原始训练集D有放回的抽取k个样本,构造D1,D2,…,Dk共k个子训练集,子训练集的数据量和原始训练集相同;2)利用k个子训练集构造k棵决策树,在决策树的分裂过程中,从所有的待选特征中随机选取一定特征,再从中选取最优的特征进行分割;3)k棵决策树得到k种分类结果;4)对k种分类结果进行投票表决,得出最终分类。
另外,随机森林模型还具有特征重要性评估的功能,它提供了两种特征重要性度量的方法[15]。
1) 依据Gini指数的变化程度来反映每个特征的重要程度。Gini指数描述节点的不纯度,Gini指数越小,不纯度越低,决策树按照节点Gini指数最小原则进行分类,计算公式为:
$$ {\rm{Gini}}\left( t \right) = 1 - \sum\limits_{i = 1}^k {{{[p(i|t)]}^2}} $$ (1) 式中:p(i|t)为类别i在t节点处的概率,Gini(t)=0时表示t节点处的样本数据为同一类。
计算特征j节点分割时Gini指数的减小值DGj,把森林中所有节点的DGj求和后对所有树取平均,用MeanDecreaseGini来表示,该值越大,表明特征j的重要性越大[16]。
2) 依据分类准确度降低的程度来反映每个特征的重要程度。随机森林在每次抽样时约有三分之一的数据未被抽中,即袋外(Out-of-Bag,OOB)数据,根据OOB数据计算模型中每棵树的OOB误差Er,然后随机打乱特征j的特征值,计算新的OOB误差Erj,特征j的重要性Vj表示为:
$$ {V_j} = \sum\limits_{r = 1}^N {\left( {E_r^j - {E_r}} \right)} $$ (2) 式中:N为决策树的数量。
将Vj进行标准化处理,用MeanDecrease-Accuracy来表示。MeanDecresseAccuracy值越大,表明该特征的重要性越大[16]。
-
本研究构建的杉木适生性预测模型流程:1)选取优势树种为杉木的小班;2)确定杉木树种生长适宜性的衡量标准;3)对样本数据进行预处理,同时将其按7:3比例分为训练样本和测试样本;4)利用训练样本构建随机森林模型,并用测试样本验证模型的精度;5)对给定立地因子的小班,将立地属性值输入随机森林模型,输出该小班适合杉木生长的概率,据此判断是否适生;6)对影响杉木生长的立地因子进行重要性评估及排序,分析单因素对于杉木生长的影响。图 2为模型构建流程图。
-
衡量适地适树的数量标准主要有立地指数、材积生长量和立地期望值[17]。一个树种在成熟收获时的平均材积生长量不仅取决于立地条件,还决定于林分密度和经营水平,因此将材积生长量作为衡量指标比较复杂。立地期望值可以用来预测立地经济效益水平,但是由于木材生产的长期性与市场预测的矛盾,增加了立地经济评价的难度。立地指数是指在某一立地上特定基准年龄时林分优势木的平均高值[18]。它能够较好地反映立地性能与树种生长之间的关系,立地指数越大,说明树木在该立地上生长越好。本研究将立地指数作为判断杉木生长适宜性的标准,参考姚山[19]对于油松(Pinus tabuliformis)生长适宜性的划分依据,将立地指数大于或等于平均立地指数的小班,判定为比较适宜杉木生长的小班;将立地指数小于平均立地指数的小班,判定为比较不适宜杉木生长的小班。立地指数可由优势木平均高和平均年龄计算得出。本文杉木立地指数通过查阅热林中心已计算出的松杉立地指数表获得。
-
连续变量离散化将进一步提高随机森林模型的预测精确率[20]。杉木生长立地信息表中,海拔、坡度、土壤厚度、腐殖质层厚度均属于连续型变量,将这3个立地因子按照《广西森林资源连续清查技术第七次复查操作细则》(2005年)指定的地形因子分级标准进行离散化;海拔则根据热林中心的实际情况进行分级。属性分级标准见表 2。
表 2 属性分级标准
Table 2. Attribute classification standard
立地因子Site factor 分级标准Classification standard 坡度
Slope degree平坡:<5°;缓坡:5°~14°;斜坡:15°~24°;陡坡:25°~34°;急坡:35°~44°;险坡:≥45°
Flat slope:<5°; Gentle slope: 5°-14°; Incline slope: 15°-24°; Steep slope: 25°-34°;
Sharp slope: 35°-44°; Dangerously steep slope: ≥45°土壤厚度
Soil thickness厚:≥80 cm;中:40~79 cm;薄:<40 cm
Thick: ≥80 cm; Medium: 40-79 cm; Thin:<40 cm腐殖质层厚度
Humus layer thickness厚:≥20 cm;中:10~19 cm;薄:<10 cm
Thick: ≥20 cm; Medium: 10-19 cm; Thin:<10 cm海拔
AltitudeⅠ级:<350 m;Ⅱ级:350~750 m;Ⅲ级:750~1 050 m;Ⅳ级:>1 050 m
Grade Ⅰ:<350 m; Grade Ⅱ: 350-750 m; Grade Ⅲ: 750-1 050 m; Grade Ⅳ:>1 050 m -
用机器学习的方法处理实际问题时,数据集不平衡会对模型性能造成影响。本次实验的355个训练样本中,适宜杉木生长(正样本)的有244个,不适宜杉木生长(负样本)的有111个,正样本明显多于负样本, 为了避免由于数据不平衡对分类结果产生偏差,实验对正负样本进行平衡化处理。过采样(增加少数类样本)以及欠采样(删减多数类样本)是数据平衡化经常采用的两种方式。由于本研究的样本量较小,所以采用过采样的方式。SMOTE算法是一种过采样方法,其在不平衡分类问题上得到广泛应用。算法的原理为假设两个距离较近的少数样本之间仍是少数类,对于原始少数样本中的每一个样本,选取距离其最近的k个少数样本,然后随机从k-近邻选取样本,人工合成新少数样本[21]。SMOTE算法可以通过R语言的DMwR包实现,平衡后的少数类样本数量是原少数类样本数的倍数,并且与多数类样本数量均衡。本研究为了不损失原正样本的数量,经SMOTE算法平衡后的负样本数量是原负样本数量的3倍(表 3)。
表 3 平衡前后各样本构成情况
Table 3. Composition of samples before and after balance
样本类别
Sample classification正样本
Positive
sample负样本
Negative
sample合计
Total原始样本Original sample 244 111 355 平衡后样本Sample after balance 333 333 666 -
本研究中随机森林模型的构建在R语言开源平台上实现,R语言提供了用于构建随机森林模型的程序包randomForest。随机森林具有两个非常重要的自定义参数,分别是分类树的数量ntree,以及分割节点的随机特征的个数mtry。这两个参数需要经过优化,以提高随机森林模型的预测准确率。参数mtry的确定:从1一直到数据集的总的特征个数,逐一尝试,通过对比误差率来寻找最优mtry。表 4为不同的mtry取值对应的模型误差的大小。
表 4 不同的mtry取值对应误差的大小
Table 4. Errors corresponding to different mtry values
随机特征个数
Number of random feature(mtry)1 2 3 4 5 6 7 8 9 误差率Error rate 0.263 0.200 0.165 0.156 0.162 0.170 0.161 0.162 0.167 从表 4中误差率的值可以发现,当mtry取值为4时,误差达到最小,所以建模时参数mtry的取值为4。参数ntree的设置过低,会导致模型的错误率偏高,设置过高会提升模型复杂度,降低效率。基于已经确定的mtry值,将模型错误率与ntree的关系可视化(图 3)。
从图 3可以看出,当分类树的数量大于400以后,模型的误差率趋于稳定,因此建模时ntree取值为400。根据已经确定的参数,即mtry=4,ntree=400,建立随机森林模型。
-
模型评价指标的计算通常基于以下4项指标:真正类(True Positive,TP),即模型预测适宜杉木生长,且实际适宜的样本个数;假正类(False Positive,FP),即模型预测适宜杉木生长,但实际不适宜的样本个数;真负类(True Negative,TN),即模型预测不适宜杉木生长,且实际不适宜的样本个数;假负类(False Negative,FN),即模型预测不适宜杉木生长,但实际适宜的样本个数。混淆矩阵可以直观地展示每个类别的预测详情[22],其每一列代表预测值,每一行代表实际的类别,主对角线元素为被正确分类的样本数,对角线以外的元素为错误分类数,结构如表 5所示。
表 5 混淆矩阵
Table 5. Confused matrix of predictive results
实际类别
Actual type预测类别Predictive type 适宜Adaptability 不适宜Inadaptability 适宜Adaptability TP FN 不适宜Inadaptability FP TN 注:TP代表真正类,即模型预测结果为适宜生长,且实际情况也为适宜;FP代表假正类,即模型预测结果为适宜生长,但实际情况为不适宜;TN代表真负类,即模型预测结果为不适宜生长,且实际情况也为不适宜;FN代表假负类,即模型预测结果为不适宜生长,但实际情况为适宜。Notes:TP(true positive) implies that the predicted result and the reality are both the adaptability;FP(false positive) implies that the predicted result is the adaptability, but the reality is the opposite;TN(true negative) implies that the predicted result and the reality are both the inadaptability;FN(false negative) implies that the predicted result is the inadaptability, but the reality is the opposite. 通常采用精度指标(Accuracy)来衡量模型的性能,主要包括训练精度和泛化精度[23]。精度指标(A)的计算公式见式(3)。在本研究中,实验数据按7:3的比例划分训练样本和测试样本。训练样本用来构建模型,测试样本用来检验模型的精度。
$$ A = \frac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP}} + {\rm{TN}} + {\rm{FP}} + {\rm{FN}}}} $$ (3) -
表 6的混淆矩阵显示了基于训练数据构建的随机森林模型的预测结果, 训练精度为84.3%,总体误判率为15.7%。其中,模型对于杉木生长适宜性的误判率为12.5%,对于不适宜性的误判率为18.7%。将测试数据输入模型,进一步验证模型的预测准确率,输出预测结果(表 7)。模型的泛化精度为89.5%,说明预测结果较为满意。
表 6 随机森林模型混淆矩阵
Table 6. Confusion matrix of random forest model
实际类别
Actual type预测类别Predictive type 分类误差率
Classification
error rate/%适宜
Adaptability不适宜
Inadaptability适宜Adaptability 202 29 12.5 不适宜Inadaptability 44 191 18.7 表 7 测试数据预测结果
Table 7. Predicted results of test samples
实际类别
Actual type预测类别Predictive type 适宜Adaptability 不适宜Inadaptability 适宜Adaptability 95 16 不适宜Inadaptability 7 82 -
将立地属性输入随机森林模型,可以输出杉木的适生性概率以及适生性判断结果。表 8举例说明了将有林地和无林地的立地条件分别输入模型得出的预测结果。有林地的立地指数已知,可以用来与模型的预测结果作对比,从而证明了将随机森林应用到适地适树研究中是可行的。
表 8 模型判断结果
Table 8. Predicted results of models
地类
Land
type地貌类型
Physiognomy
type海拔
Altitude/
m坡向
Slope
aspect坡度
Slope
degree/
(°)坡位
Slope
position土壤厚度
Soil
thickness/
cm腐殖质层
厚度Humus
layer
thickness/cm土壤种类
Soil type成土母岩
Parent
rock立地
指数
Site
index模型预测结果
Predicted results of model不适宜性概率
Probability of
inadaptability适宜性概率
Probability align="center" class="table_top_border2" of
adaptability结果
Result有林地
Forest land丘陵Hill 250 西北
Northwest26 中坡
Middle slope95 1 赤红壤Latosolic
red soil砂岩Sandstone 18 0.057 0.948 适宜
Adaptability低山Lower
mountain420 东北
Northeast20 下坡
Downhill90 1 赤红壤
Latosolic red soil岩浆岩
Magmatic rock22 0.008 0.992 适宜
Adaptability低山Lower
mountain290 西北
Northwest32 上坡Uphill 90 1 赤红壤
Latosolic red soil砂岩Sandstone 10 0.935 0.065 不适宜
Inadaptability无林地
Non-forest land低山Lower mountain 780 北North 17 上坡Uphill 70 1 赤红壤
Latosolic red soil砂岩Sandstone 无 0.843 0.157 不适宜
Inadaptability丘陵Hill 360 东北
Northeast22 中坡
Middle slope80 1 赤红壤
Latosolic red soil岩浆岩
Magmatic rock无 0.118 0.882 适宜
Adaptability低山Lower
mountain670 西
West15 中坡
Middle slope70 10 赤红壤
Latosolic red soil砂岩Sandstone 无 0.177 0.823 适宜
Adaptability -
运用2.1中随机森林模型的两种变量重要性评估方法对9个立地因子进行重要性评估,分析其对杉木生长的影响程度。图 4体现了变量重要性评估的两种不同衡量指标,从图 4中可以看到这两个指标指示的变量重要性略有差距,但是差距不会很大。同时,模型给出的预测变量重要性估计表明在热林中心这个区域,选取的9个立地因子中,对杉木生长影响较大的是坡度、坡向、腐殖质层厚、海拔高,影响因素较小的是土壤种类和土层厚度。坡度、坡向的改变,对于太阳辐射、土壤肥力、气温等有一定的影响,因此坡度、坡向对杉木生长影响较大。随着海拔高度的变化,太阳辐射、空气湿度、土壤理化条件以及土壤中微生物的种类、活动强度等变化明显,表明海拔高是影响杉木生长的重要因素。热林中心杉木种植区域,土壤以赤红壤、红壤为主,种类较少,土层多较厚,所以土壤种类和土层厚度对杉木生长影响表现的不是很明显。
随机森林模型也可以给出每个立地因子对于杉木生长适宜性的影响[16]。图 5描绘了坡度和海拔对杉木适宜性生长的影响(离散化后)。从图 5可以看出,热林中心区域内,坡度在25°~34°之间、海拔在大于350 m的低山和中山地区比较适宜杉木生长。
-
本文将机器学习中的随机森林算法引入到适地适树问题中, 以热林中心的杉木树种为研究对象,从森林资源二类调查数据中选取355个优势树种为杉木的小班,从影响杉木生长的立地因子中选取9个较为重要的因子,建立了针对杉木适生性的随机森林模型。为了进一步提高模型精确率,对原始数据作了离散化和平衡化处理。实验结果证明该模型的训练精度为84.3%,泛化精度为89.5%,具有较高的分类准确率与预测准确率,可以对给定立地因子的造林地进行杉木适生性预测,从而实现有林地与无林地对杉木适生性判断的有机统一。同时,利用随机森林模型的变量重要性评估功能,分析了9个立地因子对杉木生长的影响程度,研究结果表明热林中心区域内,对杉木生长影响较大的立地因子为坡度、坡向、腐殖质层厚、海拔高,影响因素较小的是土壤种类及土层厚度。通过单因子对杉木的生长影响分析得出,适宜杉木生长的小班多处于低、中山地带,即海拔高于350 m的地区;坡度范围在25°~34°之间较适宜杉木生长。不同的立地条件组合对杉木的生长影响程度不同,因此在对杉木进行经营时,我们应客观考虑各立地因子的影响程度,使杉木的生长环境尽可能处于最佳组合状态,从而取得最佳效益。
随机森林模型在没有显著增加运算量的前提下,可以提高分类与预测的准确率,无需事先设定指标权重,调节参数少,能够处理非线性、交互作用等问题,可用于变量重要性评估,模型本身具有算法上的优势,并且计算方便,可在R语言开源平台实现。本文的主要创新点就是将随机森林模型应用到适地适树问题中,并且得到了较为满意的结果。
进一步的研究会考虑应用模型的回归功能建立立地因子与立地指数之间的关系,实现对无林地立地指数的预测。随机森林模型具有宽广的潜在应用范围,本研究所建立的模型只针对杉木树种,今后也可以建立其他树种的随机森林模型,为适地适树提供依据,从而更好地制定造林决策。
Prediction of adaptability of Cunninghamia lanceolata based on random forest
-
摘要: 以中国林业科学研究院热带林业实验中心杉木树种为研究对象,从森林资源二类调查数据中提取优势树种为杉木的小班,将样本数据按7:3的比例分为训练样本和测试样本。以海拔、地貌类型、坡度、坡向、坡位、土壤种类、成土母岩、土壤厚度、腐殖质层厚度为输入变量,以杉木生长适宜性为输出变量,运用随机森林算法建立杉木适生性预测模型,对不同立地条件下的造林地进行杉木适生性预测。同时,利用随机森林模型的变量重要性评估功能,分析了各立地因子对杉木生长的影响权重。结果表明:基于随机森林的杉木适生性预测模型的训练精度为84.3%,泛化精度达到89.5%,具有较高的预测准确率;研究区域内对杉木生长影响较大的立地因子依次为坡度、坡向、腐殖质层厚、海拔,影响因素较小的是土壤种类、土层厚度;就单因素的影响而言,海拔≥350 m的低山和中山地区,坡度在25°~34°之间比较适宜杉木生长。基于随机森林的杉木适生性预测模型可处理复杂的非线性关系,可将模型应用到无林地的造林决策,实现有林地与无林地对杉木适生性判断的有机统一,也可推广到其他树种,为适地适树提供依据。Abstract: In this paper, Cunninghamia lanceolata was taken as research object in the Experimental Center of Tropical Forestry of Chinese Academy of Forestry, Pingxiang County of Guangxi Province of southern China, we selected the sub-compartments with dominant species of Cunninghamia lanceolata, divided the experimental data into training samples and test samples at 7:3 ratio and established a random forest model with altitude, physiognomy type, slope degree, slope aspect, slope position, soil type, parent rock, soil thickness, humus layer thickness as input variables and growth adaptability of Cunninghamia lanceolata as output variable to predict its adaptability for afforestation sites. At the same time, we analyzed the weight of main site factors on the growth of Cunninghamia lanceolata using the established model. This study showed that the training accuracy of adaptability of Cunninghamia lanceolata based on random forest model was 84.3% and the generalization accuracy reached 89.5%. Site factors greatly affecting the growth of Cunninghamia lanceolata were slope degree, slope aspect, the humus layer thickness and altitude, while soil type and soil thickness less affected the growth of Cunninghamia lanceolata. In terms of single site factor, the slopes ranged from 25° to 34° and the altitude greater than 350 m were more suitable for the growth of Cunninghamia lanceolata. The established model based on random forest could deal with complex nonlinear relations and could be applied to make afforestation decision to non-forest lands, then to realize the organic unification of the suitability judgment of Cunninghamia lanceolata with forest land and non-forest land, and the model can be extended to other tree species and provide theoretical support to the problem of matching species with site.
-
Key words:
- matching species with site /
- random forest /
- Cunninghamia lanceolata /
- adaptability
-
表 1 杉木生长信息
Table 1. Growth information of Cunninghamia lanceolata
小班号
No. of
sub-compartment地貌类型
Physiognomy
type海拔
Altitude/
m坡向
Slope
aspect坡度
Slope degree/
(°)坡位
Slope
position土壤厚度
Soil thickness/
cm腐殖质层
厚度
Humus layer
thickness/
cm土壤种类
Soil type成土母岩
Parent rock平均
年龄/a
Mean
age/year优势木
平均高
Mean
height of
dominant
tree/m1 丘陵Hill 290 南South 20 脊Ridge 180 1 赤红壤
Latosolic
red soil砂岩Sandstone 25 17.5 2 丘陵Hill 370 西南
Southwest30 中坡Middle
slope100 1 赤红壤
Latosolic
red soil砂岩
Sandstone25 17.5 3 低山Lower
mountain350 东北
Northeast28 下坡
Downhill160 1 赤红壤
Latosolic
red soil砂岩
Sandstone19 17.5 4 丘陵Hill 200 西West 36 下坡
Downhill70 1 赤红壤
Latosolic
red soil砂岩
Sandstone19 17.7 5 低山Lower
mountain860 东East 30 上坡Uphill 70 1 赤红壤
Latosolic
red soil砂岩
Sandstone25 15.2 6 中山Middle
mountain660 南South 33 中坡Middle
slope70 2 赤红壤
Latosolic
red soil砂岩
Sandstone18 12.3 7 丘陵Hill 273 北North 21 下坡
Downhill80 2 紫色土
Purple soil砂岩
Sandstone19 11.8 8 丘陵Hill 415 无坡向No
slope aspect30 中坡Middle
slope130 10 赤红壤
Latosolic
red soil岩浆岩
Magmatic
rock17 16.5 9 低山Lower
mountain590 西北
Northwest15 谷地Valley 130 10 红壤
Red soil岩浆岩
Magmatic
rock21 19.6 10 低山Lower
mountain580 北North 30 下坡
Downhill130 5 黄红壤
Yellow-red
soil岩浆岩
Magmatic
rock23 17.8 11 低山Lower
mountain880 东南
Southeast37 中坡Middle
slope100 3 黄壤Yellow soil 岩浆岩
Magmatic
rock33 17.5 表 2 属性分级标准
Table 2. Attribute classification standard
立地因子Site factor 分级标准Classification standard 坡度
Slope degree平坡:<5°;缓坡:5°~14°;斜坡:15°~24°;陡坡:25°~34°;急坡:35°~44°;险坡:≥45°
Flat slope:<5°; Gentle slope: 5°-14°; Incline slope: 15°-24°; Steep slope: 25°-34°;
Sharp slope: 35°-44°; Dangerously steep slope: ≥45°土壤厚度
Soil thickness厚:≥80 cm;中:40~79 cm;薄:<40 cm
Thick: ≥80 cm; Medium: 40-79 cm; Thin:<40 cm腐殖质层厚度
Humus layer thickness厚:≥20 cm;中:10~19 cm;薄:<10 cm
Thick: ≥20 cm; Medium: 10-19 cm; Thin:<10 cm海拔
AltitudeⅠ级:<350 m;Ⅱ级:350~750 m;Ⅲ级:750~1 050 m;Ⅳ级:>1 050 m
Grade Ⅰ:<350 m; Grade Ⅱ: 350-750 m; Grade Ⅲ: 750-1 050 m; Grade Ⅳ:>1 050 m表 3 平衡前后各样本构成情况
Table 3. Composition of samples before and after balance
样本类别
Sample classification正样本
Positive
sample负样本
Negative
sample合计
Total原始样本Original sample 244 111 355 平衡后样本Sample after balance 333 333 666 表 4 不同的mtry取值对应误差的大小
Table 4. Errors corresponding to different mtry values
随机特征个数
Number of random feature(mtry)1 2 3 4 5 6 7 8 9 误差率Error rate 0.263 0.200 0.165 0.156 0.162 0.170 0.161 0.162 0.167 表 5 混淆矩阵
Table 5. Confused matrix of predictive results
实际类别
Actual type预测类别Predictive type 适宜Adaptability 不适宜Inadaptability 适宜Adaptability TP FN 不适宜Inadaptability FP TN 注:TP代表真正类,即模型预测结果为适宜生长,且实际情况也为适宜;FP代表假正类,即模型预测结果为适宜生长,但实际情况为不适宜;TN代表真负类,即模型预测结果为不适宜生长,且实际情况也为不适宜;FN代表假负类,即模型预测结果为不适宜生长,但实际情况为适宜。Notes:TP(true positive) implies that the predicted result and the reality are both the adaptability;FP(false positive) implies that the predicted result is the adaptability, but the reality is the opposite;TN(true negative) implies that the predicted result and the reality are both the inadaptability;FN(false negative) implies that the predicted result is the inadaptability, but the reality is the opposite. 表 6 随机森林模型混淆矩阵
Table 6. Confusion matrix of random forest model
实际类别
Actual type预测类别Predictive type 分类误差率
Classification
error rate/%适宜
Adaptability不适宜
Inadaptability适宜Adaptability 202 29 12.5 不适宜Inadaptability 44 191 18.7 表 7 测试数据预测结果
Table 7. Predicted results of test samples
实际类别
Actual type预测类别Predictive type 适宜Adaptability 不适宜Inadaptability 适宜Adaptability 95 16 不适宜Inadaptability 7 82 表 8 模型判断结果
Table 8. Predicted results of models
地类
Land
type地貌类型
Physiognomy
type海拔
Altitude/
m坡向
Slope
aspect坡度
Slope
degree/
(°)坡位
Slope
position土壤厚度
Soil
thickness/
cm腐殖质层
厚度Humus
layer
thickness/cm土壤种类
Soil type成土母岩
Parent
rock立地
指数
Site
index模型预测结果
Predicted results of model不适宜性概率
Probability of
inadaptability适宜性概率
Probability align="center" class="table_top_border2" of
adaptability结果
Result有林地
Forest land丘陵Hill 250 西北
Northwest26 中坡
Middle slope95 1 赤红壤Latosolic
red soil砂岩Sandstone 18 0.057 0.948 适宜
Adaptability低山Lower
mountain420 东北
Northeast20 下坡
Downhill90 1 赤红壤
Latosolic red soil岩浆岩
Magmatic rock22 0.008 0.992 适宜
Adaptability低山Lower
mountain290 西北
Northwest32 上坡Uphill 90 1 赤红壤
Latosolic red soil砂岩Sandstone 10 0.935 0.065 不适宜
Inadaptability无林地
Non-forest land低山Lower mountain 780 北North 17 上坡Uphill 70 1 赤红壤
Latosolic red soil砂岩Sandstone 无 0.843 0.157 不适宜
Inadaptability丘陵Hill 360 东北
Northeast22 中坡
Middle slope80 1 赤红壤
Latosolic red soil岩浆岩
Magmatic rock无 0.118 0.882 适宜
Adaptability低山Lower
mountain670 西
West15 中坡
Middle slope70 10 赤红壤
Latosolic red soil砂岩Sandstone 无 0.177 0.823 适宜
Adaptability -
[1] 黄云鹏.森林培育学[M].北京:高等教育出版社, 2002. HUANG Y P.Silviculture[M].Beijing:Higher Education Press, 2002. [2] 郭艳荣, 刘洋, 吴保国.福建省宜林地立地质量的分级与数量化评价[J].东北林业大学学报, 2014, 42(10):54-59. doi: 10.3969/j.issn.1000-5382.2014.10.012 GUO Y R, LIU Y, WU B G.Evaluating dividing rank and quantification of site quality of suitable land for forest in Fujian Province, China[J].Journal of Northeast Forestry University, 2014, 42(10):54-59. doi: 10.3969/j.issn.1000-5382.2014.10.012 [3] CURT T, BOUCHAUD M, AGRECH G.Predicting site index of Douglasfir plantations from ecological variables in the Massif Central area of France[J].Forest Ecology and Management, 2001, 149(1):61-74. http://cn.bing.com/academic/profile?id=33a58ff18489b10367956465b4786ef8&encoded=0&v=paper_preview&mkt=zh-cn [4] LOUWA J H, SCHOLES M.Forest site classification and evaluation:a South African perspective[J].Forest Ecology and Management, 2002, 171(1-2):153-168. doi: 10.1016/S0378-1127(02)00469-3 [5] 张伏全, 魏汗功, 陈远材.滇西南地区立地龙竹质量评价的研究[J].林业科学, 1994, 30(2):104-110. http://www.cnki.com.cn/Article/CJFDTotal-LYKE402.001.htm ZHANG F Q, WEI H G, CHEN Y C.Study on site quality evaluation of fragon bamboo in Southwest Yunnan[J].Scientia Silvae Sinicae, 1994, 30(2):104-110. http://www.cnki.com.cn/Article/CJFDTotal-LYKE402.001.htm [6] 黄家荣, 马天晓, 王艳梅, 等.基于BP网络的无林地立地质量评价模型研究[J].山地农业生物学报, 2006, 25(6):479-483. doi: 10.3969/j.issn.1008-0457.2006.06.003 HUANG J R, MA T X, WANG Y M, et al.Forest site evaluation model studies on the basis of BP Neural Network[J].Journal of Mountain Agriculture and Biology, 2006, 25(6):479-483. doi: 10.3969/j.issn.1008-0457.2006.06.003 [7] IVERSON L R, PRASAD A M, MATTHEWS S N, et al.Estimating potential habitat for 134 eastern US tree species under six climate scenarios[J].Forest Ecology and Management, 2008, 254:390-406. doi: 10.1016/j.foreco.2007.07.023 [8] PRASAD A M, IVERSON L R, LIAW A.Newer classification and regression tree technique:bagging and random forests for ecological prediction[J].Ecosystems, 2006, 9(2):181-199. doi: 10.1007/s10021-005-0054-1 [9] DONG L J, LI X B.Prediction of rockburst classification using random forest[J].Transaction of Nonferrous Metals Society of China, 2013, 23(2):472-477. doi: 10.1016/S1003-6326(13)62487-5 [10] 余坤勇, 姚雄, 邱祁荣, 等.基于随机森林模型的山体滑坡空间预测研究[J].农业机械学报, 2016, 47(10):338-345. doi: 10.6041/j.issn.1000-1298.2016.10.043 YU K Y, YAO X, QIU Q R, et al.Landslide spatial prediction based on random forest model[J].Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(10):338-345. doi: 10.6041/j.issn.1000-1298.2016.10.043 [11] 张雷, 王琳, 张旭东, 等.随机森林算法基本思想及其在生态学中的应用:以云南松分布模拟为例[J].生态学报, 2014, 34(3):650-659. http://d.old.wanfangdata.com.cn/Periodical/stxb201403015 ZHANG L, WANG L, ZHANG X D, et al. The basic principle of random forest and its application in ecology: a case study of Pinus yunnanensis[J].Acta Ecologica Sinica, 2014, 34(3):650-659. http://d.old.wanfangdata.com.cn/Periodical/stxb201403015 [12] 赖成光, 陈晓宏, 赵仕威, 等.基于随机森林的洪灾风险评价模型及其应用[J].水利学报, 2015, 46(1):59-65. http://d.old.wanfangdata.com.cn/Periodical/slxb201501008 LAI C G, CHEN X H, ZHAO S W, et al.Flood risk assessment model and its application based on random forest[J].Journal of Hydraulic Engineering, 2015, 46(1):59-65. http://d.old.wanfangdata.com.cn/Periodical/slxb201501008 [13] 邢海涛, 陆元昌, 刘宪钊, 等.基于近自然改造的马尾松林分竞争强度研究[J].北京林业大学学报, 2016, 38(9):42-53. doi: 10.13332/j.1000-1522.20160023 XING H T, LU Y C, LIU X Z, et al.Competiiton intensity of Pinus massoniana stand based on close-to-nature management[J].Journal of Beijing Forestry University, 2016, 38(9):42-53. doi: 10.13332/j.1000-1522.20160023 [14] BREIMAN L. Random forests[J].Machine Learning, 2001, 45(1):5-32. doi: 10.1023/A:1010933404324 [15] 张洪强, 刘光远, 赖祥伟.随机森林在肌电的重要特征选择中的应用[J].计算科学, 2013, 40(1):200-202. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjkx201301046 ZHANG H Q, LIU G Y, LAI X W. Application of random forest algorithm in important feature selection form EMG signal[J].Computer Science, 2013, 40(1):200-202. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjkx201301046 [16] 李新海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报, 2013, 50(4):1190-1197. http://d.old.wanfangdata.com.cn/Periodical/kczs201304041 LI X H.Using"random forest" for classification and regression[J].Chinese Journal of Applied Entomology, 2013, 50(4):1190-1197. http://d.old.wanfangdata.com.cn/Periodical/kczs201304041 [17] 齐颜君, 王丹, 孙喜林, 等.适地适树的意义与数量标准[J].现代农业科技, 2013(1):169. doi: 10.3969/j.issn.1007-5739.2013.01.104 QI Y J, WANG D, SUN X L, et al. The meaning and quantity standard of matching species with the site[J].Modern Agriculture Science and Technology, 2013(1):169. doi: 10.3969/j.issn.1007-5739.2013.01.104 [18] 孟宪宇.测树学[M].北京:中国林业出版社, 2006. MENG X Y. Forest measurement[M]. Beijing: China Forestry Publishing House, 2006. [19] 姚山.基于数据挖掘技术的造林决策研究[D].北京: 北京林业大学, 2008. http://cdmd.cnki.com.cn/Article/CDMD-10022-2008085015.htm YAO S.Study on afforestation decision based on data mining[D]. Beijing: Beijing Forestry University, 2008. http://cdmd.cnki.com.cn/Article/CDMD-10022-2008085015.htm [20] 曹正凤.随机森林算法优化研究[D].北京: 首都经济贸易大学, 2014. http://cdmd.cnki.com.cn/Article/CDMD-11912-1014220587.htm CAO Z F.Study on optimization of random forests algorithm[D]. Beijing: Capital University of Economics and Business, 2014. http://cdmd.cnki.com.cn/Article/CDMD-11912-1014220587.htm [21] CHWLA N V, BOWYER K W, HALL L O, et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research, 2011, 16(1):321-357. http://d.old.wanfangdata.com.cn/Periodical/dianzixb200911024 [22] 李婉华, 陈宏, 郭坤, 等.基于随机森林算法的用电负荷预测研究[J].计算机工程与应用, 2016, 52(23):236-243. doi: 10.3778/j.issn.1002-8331.1606-0203 LI W H, CHEN H, GUO K, et al.Research on electrical load prediction based on random forest algorithm[J].Computer Engineering and Applications, 2016, 52(23):236-243. doi: 10.3778/j.issn.1002-8331.1606-0203 [23] 郭颖婕, 刘晓燕, 郭茂祖, 等.植物抗性基因识别中的随机森林分类方法[J].计算科学与探索, 2012, 6(1):67-77. http://d.old.wanfangdata.com.cn/Periodical/jsjkxyts201201005 GUO Y J, LIU X Y, GUO M Z, et al.Identification of plant resistance gene with random forest[J].Journal of Frontiers of Computer Science and Technology, 2012, 6(1):67-77. http://d.old.wanfangdata.com.cn/Periodical/jsjkxyts201201005 -