基于多特征融合和CNN模型的树种图像识别研究

刘嘉政; 王雪峰; 王甜

doi:10.13332/j.1000-1522.20180366

基于多特征融合和CNN模型的树种图像识别研究

中国林业科学研究院资源信息研究所，北京 100091

基金项目: 国家重点研发计划项目（2017YFC0504106）

详细信息

作者简介:
刘嘉政。主要研究方向：林业信息技术应用。Email：liujiazheng0919@163.com 　地址：100091北京市海淀区香山路东小府1号中国林业科学研究院资源信息研究所

责任作者:
王雪峰，博士，研究员。主要研究方向：森林资源监测与计算机视觉。Email：xuefeng@ifrit.ac.cn　地址：同上

计量
- 文章访问数: 4633
- HTML全文浏览量: 1615
- PDF下载量: 266
出版历程
- 收稿日期: 2018-11-11
- 修回日期: 2019-03-07
- 网络出版日期: 2019-09-30
- 发布日期: 2019-10-31

Image recognition of tree species based on multi feature fusion and CNN model

Research Institute of Resource Information Techniques, Chinese Academy of Forestry, Beijing 100091, China

摘要

摘要:
目的在树种图像识别时会存在类内差异、类间相似的现象，因此导致基于单一人工特征的传统识别方法难以达到理想的识别效果。针对这一问题，本文基于卷积神经网络，提出一种将图像深层特征和人工特征融合的树种图像深度学习识别方法。
方法将6类常见树种（樟子松、山杨、白桦、落叶松、雪松和白皮松）图像作为研究对象。首先，通过裁剪、水平翻转、旋转等操作，对原始树种图像集进行数量扩增，并划分为训练集和测试集，建立本次树种识别实验的图像库；其次，将本文模型设计为3路并列网络，分别选取RGB图像、HSV图像、LBP-HOG图像，从图像像素、色彩、纹理和形状的角度出发，对上述树种图像进行识别。一方面构建适合本文实验的CNN深度学习模型，将训练集样本中RGB图像和相对应的HSV图像作为第1路和第2路CNN模型的输入，进行树种图像深层特征提取；另一方面，对训练集进行高斯滤波去噪和人工提取LBP-HOG特征来代表纹理、形状特征，作为第3路CNN模型的输入。然后，将3路模型各自得到的特征在最后一层全连接层进行汇总，作为softmax分类器的最终分类依据。最后，为检验本文方法的可行性，利用上述特征和训练集对SVM分类器、BP神经网络以及现有的深度学习LeNet-5模型、VGG-16模型进行训练，对测试集进行识别验证，来比较最终的识别效果。
结果本文提出的多特征融合CNN模型，训练准确率为96.13%，平均验证识别准确率为91.70%。基于单路训练的CNN树种识别模型中，RGB图像作为训练输入值时，识别率最高，为75.21%，HSV特征识别率次之，LBP-HOG特征最差；多特征融合情况下，基于RGB + H通道 + LBP条件下，验证识别准确率最高，达到93.50%；RGB + HSV + LBP + HOG组合识别率不增反降，识别率为89.50%。同样的特征或特征组合条件下，SVM、BP神经网络、LeNet-5模型和VGG-16模型所获得的识别率均低于本文模型的识别率。
结论基于RGB + H通道 + LBP特征融合条件下，运用3路并列CNN模型，对本文6类树种图像进行识别的识别率最高，克服了在单一特征情况下识别率低的问题，识别效果也非常理想，实现了从大量不同树种图像中自动识别出具体类别。
- 树种 /
- 图像识别 /
- 特征融合 /
- 深度学习 /
- 卷积神经网络
Abstract:
ObjectiveThere are intra-class differences and inter-class similarities in tree species image recognition, which makes it difficult for traditional methods based on single artificial features to achieve ideal recognition results. In order to solve these problems, a tree image depth learning recognition method based on convolution neural network was proposed, which combines deep features of the image with artificial features.
MethodSix kinds of common tree species, including Pinus sylvestris var. mongolica, Populus davidiana, Betula platyphylla, Larix gmelinii, Cedrus deodara and Pinus alba, were studied. Firstly, the original tree species image set was expanded by clipping, horizontal flipping, rotation and other operations, and was divided into training set and test set to establish the image database of this tree species recognition experiment; secondly, the model was designed as three parallel channels. The network selected RGB image, HSV image and LBP-HOG image, respectively, and recognized the above tree image from the point of view of pixel value, color, texture and shape. On the one hand, a CNN depth learning model suitable for this experiment was constructed. The RGB image and the corresponding HSV image in the training set were used as the input of the first and second CNN models to extract the deep features of tree image. On the other hand, the training set was de-noised by Gaussian filtering, and LBP-HOG features were extracted artificially to represent texture and shape features as the input of the third CNN model. Finally, the features obtained by each of the three models were summarized in the last layer of the fully connected layer as the final classification basis of the soft Max classifier. Finally, in order to verify the feasibility of the proposed method, the SVM classifier, BP neural network, the existing depth learning LeNet-5 model and VGG-16 model were trained by the above features and training set, and the test set was identified and verified to compare the final recognition effect.
ResultThe training accuracy of the multi-feature fusion CNN model was 96.13%, and the average recognition accuracy was 91.70%. In the CNN tree species recognition model based on one-way training, the recognition rate of RGB image as training input value was the highest, which was 75.21%, followed by HSV feature recognition rate, and LBP-HOG feature was the worst; in the case of multi-feature fusion, the combination recognition rate of RGB + HSV + LBP + HOG was the highest, which reached 93.50%; in the case of RGB + H channel + LBP + HOG, the recognition rate of RGB + HSV + LBP + HOG was the highest. The recognition rate was 89.50%. Under the same condition of feature or feature combination, the recognition rate of SVM, BP neural network, LeNet-5 model and VGG-16 model was lower than that of the model in this paper.
ConclusionBased on RGB + H channel + LBP feature fusion, the three-way parallel CNN model is used to get the highest recognition rate for the six types of tree images in this paper, which overcomes the problem of low recognition rate in the case of a single feature, and the recognition effect is also very ideal. It realizes automatic recognition of specific categories from a large number of different tree images.
- tree species /
- image recognition /
- feature fusion /
- deep learning /
- convolution neural network

HTML全文

通常情况下，图像识别分类时存在着类内相似、类间差异的特点，但是在树种图像识别中，往往存在着类内差异、类间相似的现象^[1]。同类树种之间，由于年龄大小、季节变化等因素，导致图像之间会有很大的差异；不同树种之间，尤其是同科树种之间，在局部特征和细节方面，却存在相似之处。这就给基于单一人工特征的传统识别方法带来了更大的难度。寻求新的方法快速准确地对树种图像进行自动识别是研究的关键所在。

现有的树种识别研究比较热门的有基于遥感影像和基于数字图像两个方面。Richter等^[2]利用高光谱数据，通过引入基于偏最小二乘的判别分析，对树种进行分类，总体准确率达到78.4%；Pham等^[3]将激光雷达和光谱数据相结合，利用随机森林确定重要的特征变量，支持向量机作为分类器，总体精确度为85.4%（Kappa系数为80.6%）。在基于数字图像方面，又可分为传统人工特征识别和神经网络智能识别。传统人工特征识别方面，陈明健等^[4]将叶片传统特征、距离矩阵和角点矩阵相融合，对树种进行识别，识别率达到90%以上；李可心等^[5]以树皮图像为研究对象，通过灰度共生矩阵，提取树皮图像的纹理信息，并利用SOM神经网络，对3类树种进行识别，识别率较为理想；杨洋^[6]基于Haar小波变换的方法，并将SVM作为分类器，对树种进行识别，通过对叶片提取几何特征和纹理特征，并采用SVM的分类方法，取得了理想的识别准确率；于海鹏等^[7]通过对木材图像提取色调、饱和度等9个特征参数，从纹理特征的最大相似性入手，对木材树种进行分类识别，检索正确率较高；孙伶君等^[8]对木材图像采用分块LBP特征提取，使用衰减、卡方、欧式3种方法分类，最近邻法识别，准确率高达93.3%。神经网络智能识别方面，在国外，Bertrand等^[9]将树干、树叶特征相结合，并将算法嵌入到智能手机中，大大增强了实用化和利用率。Zhao等^[10]将树种叶片作为研究对象，基于Android系统，开发一款名为“Apleap”的移动端软件，不仅为专业人士识别带来便利，对普通民众来说，普及率大大提高；在国内，对于树种智能识别的研究起步相对较晚，赵鹏超等^[11]以阔叶叶脉的纹理特征为切入点，构建卷积神经网络，最终训练识别率达到95%以上，为树种识别提供新思路。上述方法，尽管都取得了不错的识别效果，但也存在着一些问题，如大部分研究是依靠人工提取图像特征来满足实验要求。众所周知，同一棵树，在不同季节、不同年龄、不同拍摄角度等条件下，都会显示出不同的形态，其图像中各个特征信息都会随之发生变化，因此对继续提高树种识别率带来了困难。

近年来，深度卷积神经网络发展迅速，得到了广泛关注。物体不管呈现出何种状态，深度学习方法获取的低层和深层的特征信息都能够做到保持不变^[12]。早期，Lecun等^[13]提出L提出LeNet-5模型，基于反向传播算法对网络进行训练，通过卷积层和池化层将原始图像特征进行自动提取，并转化为相对应的特征子图，最后将全连接层作为“分类器”，进行最后的分类输出，并最终在MNIST手写字符数据集的识别上取得了成功。2012年，卷积神经网络迎来了发展高潮，Krizhevsky等^[14]首次将深度学习理念应用到图像分类中，提出AlexNet模型，并在ImageNet^[15]图像分类大赛中，以巨大优势获得冠军，使得卷积神经网络在图像处理领域成为最受欢迎的方法。在接下来的几年里，在经典卷积神经网络模型的基础上，不断有学者和研究人员进行改进和创新，如Simonyan等^[16]提出的VGG模型、Szegedy等^[17]提出的GoogLeNet模型、He等^[18]提出的ResNet模型等。鉴于卷积神经网络在图像识别分类上的广泛应用，陆续有研究人员在树种图像识别中采用CNN。例如，上面提到的赵鹏超等人，将叶脉的纹理特征作为CNN的输入值，其分类效果明显高于传统人工特征方法，一定程度上表明深度学习方法的可行性。但是，此研究采用单一特征进行识别，不够全面，是否能应用到其他特征识别上来，还有待进一步验证。

基于上述问题，本文基于CNN模型，提出一种将图像深层特征和人工特征融合的树种图像深度学习识别方法，使用3路相同的CNN模型作为并行网络，对RGB图像、HSV图像、人工特征Gabor特征和颜色矩分别进行特征提取，并在最后一个全连接层进行汇总，识别输出。通过多特征融合解决了树种单一特征识别的限制问题，完成了对不同树种图像的自动识别。

1. 材料与方法

1.1 图像数据集

6类树种包括：樟子松（Pinus sylvestris var. mongolica）、山杨（Populus davidiana）、白桦（Betula platyphylla）、落叶松（Larix gmelinii）、雪松（Cedrus deodara）和白皮松（Pinus bungeana）。示例图像见图1A ~ F。为满足深度学习模型训练要求，通过裁剪、水平翻转、旋转对原始图像进行扩增。树种图像数据集共计3 375幅，其中训练集2 775幅，测试集600幅，各个树种图像具体数量见图2。最后，利用python脚本语言将图像像素值调整至256 × 256像素，JPG格式保存。所有图像均采集于自然状态下，拍摄设备为数码相机和智能手机。

图 1 6类树种图像

Figure 1. 6 tree species images

下载: 全尺寸图片幻灯片

图 2 树种图像样本数

Figure 2. Sample number of tree species images

下载: 全尺寸图片幻灯片

1.2 卷积神经网络

典型的卷积神经网络（CNN）主要由输入层、卷积层、池化层（降采样层）、全连接层和输出层组成^[19]。

通常情况下，CNN网络的输入层为图像，紧接着是卷积层，卷积层通过对卷积核设置不同的个数和大小，将输入的图像转化为特征子图（feature map），传递到下一层。卷积的计算公式可以表示为：

$I_j^l = \sum\limits_i {I_i^{l - 1} \otimes k_{ij}^{l - 1} + b_j^l}$

(1)

式中： $I_j^l$ 代表第l层产生的第j个特征图； $k_{ij}^{l - 1}$ 代表卷积核个数； $b_j^l$ 为偏置项； $\otimes$ 代表卷积运算。

池化层通常紧连接着卷积层，选择某种池化方法^[20]，对卷积得到的特征图进行池化，此操作也被称为下采样。池化的主要目的就是降低特征图的维度和在一定程度上保持特征的尺度不变性。池化层计算公式一般为：

$Z_j^l = {\rm{down}}\left( {Y_j^l} \right)$

(2)

式中： $Z_j^l$ 为池化层的输出项； $Y_j^l$ 为池化层的输入项； ${\rm{down}}\left( \Delta \right)$ 为池化函数。

经过卷积和池化操作后，卷积神经网络会采用全连接层，作为“分类器”，对前面提取的大量特征进行分类，来确定最终的图像类别。计算公式如下：

$h\left( {{I^L}} \right) = f\left( {{W^{\rm{T}}}{I^L} + b} \right)$

(3)

式中： $h\left( \Delta \right)$ 为全连接层的输出项； ${I^L}$ 为第L层的卷积输出；W和b分别为全连接层的权重和偏置项； $f\left( \Delta \right)$ 为激励函数。

除上述常规网络层之外，为提高CNN网络模型的性能和泛化能力，往往采用辅助方法。本文在每个卷积层采用ReLU激励函数，此函数不会随着输入项的增加而接近饱和^[21]。ReLU激励函数计算公式如下：

${f}\left( x \right) = \max \left( {0,x} \right)$

(4)

式中：x为输入值。

另外，在ReLU函数后，也采用LRN（Local Response Normalization）^[22]策略方法，旨在增强网络模型的泛化能力，计算公式如下：

$b_{x,y}^i = \frac{{a_{x,y}^i}}{{{{\left( {k + \alpha \displaystyle\sum\limits_{j = \max \left( {0,i - n/2} \right)}^{\min \left( {N - 1,i + n/2} \right)} {{{\left( {a_{x,y}^j} \right)}^2}} } \right)}^\beta }}}$

(5)

式中：b代表特征图中i泛化后对应的像素值；j代表j ~ i的像素值的平方和；x，y为像素的位置；a代表特征图中i对应的像素值；N为特征图里面最内层向量的列数；k，α，n，β均为超参数，本文取值分别为：k = 2，α = 0.000 1，n = 5，β = 0.75。

1.3 特征提取

1.3.1 RGB图像

RGB图像，即代表红（R）、绿（G）、蓝（B）3个通道的颜色，通过不同颜色分量来表示彩色图像。本文原始数据集，即RGB图像，直接作为本文第1路CNN网络的输入图像。

1.3.2 HSV图像

HSV图像，即代表色调（H）、饱和度（S）、亮度（V），较RGB图像相比，HSV图像更加符合人类对于颜色的直观感受。之所以选择HSV图像作为另一种特征，是因为在拍摄树种图像时，亮度的变化对树种识别产生一定程度的影响。因此，本文将树种图像从RGB颜色空间转化为HSV颜色空间，作为本文第2路CNN网络的输入图像。转换思路如下：

$\begin{split} & H = \left\{ \begin{array}{*{20}{l}} \!\!\!\!\!{0^ \circ ,} & \!\!\!\!\!{{\rm{if}}\;{\rm{MAX}} = {\rm{MIN}}}\\ \!\!\!\!{{60^ \circ } \times \dfrac{{G - B}}{{{\rm{MAX}} - {\rm{MIN}}}} + {0^ \circ },} &\!\!\!\!\! {{\rm{if}}\;{\rm{MAX}} = R\;{\rm{and}}\;G \geqslant B}\\ \!\!\!\!{{60^ \circ } \times \dfrac{{G - B}}{{{\rm{MAX}} - {\rm{MIN}}}} + {360^ \circ },} & \!\!\!\!\!{{\rm{if}}\;{\rm{MAX}} = R\;{\rm{and}}\;G < B}\\ \!\!\!\!{{60^ \circ } \times \dfrac{{B - R}}{{{\rm{MAX}} - {\rm{MIN}}}} + {120^ \circ },} & \!\!\!\!\!{{\rm{if}}\;{\rm{MAX}} = G}\\ \!\!\!\!{{60^ \circ } \times \dfrac{{R - G}}{{{\rm{MAX}} - {\rm{MIN}}}} + {240^ \circ },} & \!\!\!\!\!{{\rm{if}}\;{\rm{MAX}} = B} \end{array} \right.\\ & S = \left\{ \begin{array}{*{20}{l}} \!\!\!\!\!{0^ \circ ,} & \!\!\!{{\rm{if}}\;{\rm{MAX}} = 0}\\ \!\!\!\!{\dfrac{{{\rm{MAX}} - {\rm{MIN}}}}{{{\rm{MAX}}}} = 1 - \dfrac{{{\rm{MIN}}}}{{{\rm{MAX}}}},} & \!\!\!\!\!{{\rm{Otherwise}}} \end{array} \right.\\ & V = {\rm{MAX}} \end{split}$

(6)

式中：R、G、B为红（R）、绿（G）、蓝（B）的颜色值；H、S、V为色调（H）、饱和度（S）、亮度（V）的值；MAX为R、G、B中的最大值，MIN为最小值；H在[0，360°]之间，S在[0，100°]之间，V在[0，MAX]之间。

1.3.3 LBP特征

本文采用LBP^[23]来描述树种图像局部纹理特征，利用其灰度不变性、旋转不变性以及对光照变化的鲁棒性，能够表示90%以上的纹理信息。LBP计算公式如下：

${\rm{LBP}}\left( {{x_{\rm{c}}},{y_{\rm{c}}}} \right) = \sum\limits_{p = 0}^{p - 1} {{2^p}s\left( {{i_p} - {i_{\rm{c}}}} \right)}$

(7)

$s\left( x \right) = \left\{ \begin{gathered} 1\begin{array}{*{20}{c}} {}&{x \geqslant 0} \end{array} \\ 0\begin{array}{*{20}{c}} {}&{x < 0} \end{array} \\ \end{gathered} \right.$

(8)

式中：（x_c，y_c）是邻域窗口的中心元素，像素值大小为i_c；i_p是3 × 3邻域窗口内其他像素值；s（x）是符号函数。

LBP特征提取步骤：

（1）首先，根据原始图像的像素大小为256 × 256，因此将检测窗口划分为16 × 16的子区域。

（2）利用上述公式对每个子区域的像素点的LBP进行计算。

（3）计算每个子区域的直方图，也就是每个LBP值出现的频率，并对直方图进行归一化处理。

（4）最后将得到的所有直方图连接成为一个特征向量，即整个图像的LBP纹理信息。

1.3.4 HOG特征

本文采用HOG特征^[24]来描述树种图像的形状特征，提高模型对光照因素的鲁棒性，其通过计算图像局部的方向梯度直方图来表达形状特征。HOG特征计算公式如下：

$\begin{gathered} {G_{\rm{x}}}\left( {x,y} \right) = H\left( {x + 1,y} \right) - H\left( {x - 1,y} \right) \\ {G_{\rm{y}}}\left( {x,y} \right) = H\left( {x,y + 1} \right) - H\left( {x,y - 1} \right) \\ \end{gathered}$

(9)

式中：G_x（x，y）代表图像中像素点（x，y）水平方向梯度，G_y（x，y）代表图像中像素点（x，y）垂直方向梯度，H（x，y）代表图像的像素值。

$\begin{gathered} {G_{\rm{x}}}\left( {x,y} \right) = \sqrt {{G_{\rm{x}}}{{\left( {x,y} \right)}^2}{\rm{ + }}{G_{\rm{y}}}{{\left( {x,y} \right)}^2}} \\ \alpha \left( {x,y} \right) = {\tan ^{ - 1}}\left( {\frac{{{G_{\rm{y}}}\left( {x,y} \right)}}{{{G_{\rm{x}}}\left( {x,y} \right)}}} \right) \\ \end{gathered}$

(10)

式中：α（x，y）代表像素点（x，y）处的方向。

HOG特征提取步骤：

（1）灰度化：由于颜色信息起的作用不大，因此将图像转化为灰度图像。

（2）为减少光照等因素的影响，对整个图像进行归一化处理。

（3）本文采用的梯度算子为：水平方向算子为[− 1, 0, 1]，垂直方向算子为[− 1, 0, 1]^T。再通过公式（9）和公式（10）计算梯度幅值和梯度方向。

（4）将整个图像分割成小的Cell单元格（8 × 8像素）。

（5）本文采用9个组距的直方图来统计8 × 8个像素的梯度信息，对单元格内的每个像素进行加权投影，得到该单元格对应的9维特征向量。

（6）最后将得到的所有单元格组成大的块，块内归一化直方图，即整个图像的HOG纹理信息。

1.4 构建树种识别CNN模型

本文在经典卷积神经网络的基础上，进行改进和完善，根据数据集的实际情况，经过不断调试，构建了适合本文树种图像识别的3路并列网络模型（图3）。每路CNN树种识别模型，由4个卷积层、4个池化层、3个全连接层组成，具体的参数设置如下。

图 3 并列CNN网络结构

Figure 3. Parallel CNN network structure

下载: 全尺寸图片幻灯片

第1个卷积层：有64个卷积核，大小为11 × 11；步长为2，激励函数为ReLU；采用最大池化法，池化窗口大小为2 × 2；并加入LRN层。

第2个卷积层：有128个卷积核，大小为5 × 5；步长为2，激励函数为ReLU；采用最大池化法，池化窗口大小为2 × 2；特征图的高度宽度均填充2像素。

第3个卷积层：有128个卷积核，大小为5 × 5；步长为1；采用最大池化法，池化窗口大小为4 × 4；特征图的高度宽度均填充1像素，激励函数为ReLU。

第4个卷积层：有128个卷积核，大小为3 × 3；步长为2；采用最大池化法，池化窗口大小为2 × 2；特征图的高度宽度均填充1像素，激励函数为ReLU。

全连接层：前两个全连接层包含4 096个神经元，最后一个全连接层包含1 000个神经元。输出类别：6类树种名称。

1.5 识别结果评价标准

本文用验证识别准确率和平均验证识别准确率作为识别结果的评价标准。

$\begin{array}{l} {\text{验证识别准确率}} = \dfrac{{\text{正确识别出树种类别的数量}}}{{\text{树种图形的总数量}}}\\ \!\!\!\!{\text{平均验证识别准确率}}\! =\! \dfrac{{\text{每类树种验证识别准确率之和}}}{{\text{树种类别总数}}} \end{array}$

2. 结果与分析

本文实验是采用的编程语言是Python3.5，在TensorFlow框架下实现的。计算机操作系统为Windows 8.1，处理器为Intel(R) Core(TM) i5-3330 CPU，安装内存6 GB。CNN模型训练参数设置为：学习率0.000 1，迭代次数为6 000，Batch_size为64。整个并列网络训练时的准确率和损失率如图4所示。从图4中可以看出，在训练到5 000次时，训练准确率趋于稳定，且无较大变化。在训练开始的500次时，损失率迅速下降，经过5 000次后，损失率下降到0.1左右，并趋于一个平稳的状态。

图 4 准确率与损失率

Figure 4. Training accuracy rate and loss rate

下载: 全尺寸图片幻灯片

基于本文方法的实验结果如表1所示。从最终识别结果可以看出，利用3路并列网络，将多个特征进行融合，平均验证识别准确率为91.17%，基本满足对树种图像的识别要求。其中，白皮松树种图像验证识别准确率最高，达到93.50%，落叶松识别准确率较低，达到88.70%。

表 1 本文方法的实验结果

Table 1. Experimental results in this paper %

项目 Item	樟子松 Pinus sylvestris var. mongolica	山杨 Populus davidiana	白桦 Betula platyphylla	落叶松 Larix gmelinii	雪松 Cedrus deodara	白皮松 Pinus bungeana
验证识别准确率 Accuracy rate of verification and recognition	91.50	90.40	92.80	88.70	90.10	93.50
平均验证识别准确率 Average accuracy rate of verification and recognition	91.17

下载: 导出CSV

| 显示表格

2.1 模型训练特征图显示

本文以一张白桦图像为例，分别展示了RGB图像、HSV图像、LBP图像和HOG图像在卷积层、池化层的特征图（图5 ~ 8）。由于篇幅有限，本文每层只展示4幅特征图。从图中可以得出4张图像可视化的共同点：在浅层的卷积和池化过程中，模型对图像的边缘信息最感兴趣；在越高层的卷积和池化过程中，提取的图像特征信息越来越抽象，越来越复杂，肉眼已经很难去识别。通过调用CNN的可视化功能，能够及时了解CNN识别图像的过程，也为我们改进网络模型结构提供了参考依据。

图 5 RGB图像训练特征图

Figure 5. Training feature map of RGB image

下载: 全尺寸图片幻灯片

图 8 HOG图像训练特征图

Figure 8. Training feature map of HOG images

下载: 全尺寸图片幻灯片

图 6 HSV图像训练特征图

Figure 6. Training feature map of HSV images

下载: 全尺寸图片幻灯片

图 7 LBP图像训练特征图

Figure 7. Training feature map of LBP images

下载: 全尺寸图片幻灯片

2.2 卷积核数目对实验的影响

本文对CNN模型的卷积层中卷积核数目进行不同的组合和测试，对比实验的具体参数和结果如表2所示。经过几种不同的卷积核数目的组合，64-128-128-128组合的训练准确率最高，达到了96.13%。一般情况下，卷积核数目越多，可提取学习的特征信息就越多，但也造成了网络模型中的参数骤增，计算速度变慢，容易在训练过程中造成过拟合。

表 2 不同卷积核数目的训练准确率

Table 2. Training accuracy rate of different convolution kernel numbers

卷积核数目 Convolution kernel number	训练准确率 Training accuracy rate/%
32-64-64-128	75.26
32-64-128-64	72.21
32-64-128-192	78.28
48-64-128-128	75.12
48-128-192-128	81.79
48-128-128-192	82.23
64-128-128-128	96.13
64-128-192-192	91.27
64-64-128-192	92.02

下载: 导出CSV

| 显示表格

2.3 不同特征组合对实验的影响

由表3可以看出，在单一特征条件下，训练准确率和验证准确率最高的是RGB特征，分别为75.21%和72.17%；其次是HSV特征；HOG纹理特征和LBP形状特征的识别率最差。将HSV图像进行单通道提取，分别作为单一特征进行测试，虽然相对LBP-HOG特征来说，训练准确率和验证准确率有所提高，但是实验结果仍然不理想。将RGB像素值特征与其他特征进行融合，与单一特征或其他特征融合得到的模型相比，其中，“RGB + LBP形状 + H通道”的特征融合得到的识别效果最好，训练准确率和验证识别准确率分别为96.13%、93.50%。

表 3 不同特征组合的识别率

Table 3. Recognition rate of different feature combinations

特征 Feature	训练准确率 Training accuracy rate/%	验证准确集 Verification accuracy set	验证集 Validation set	验证识别准确率 Verifying the recognition accuracy rate/%
RGB	75.21	433	600	72.17
HSV	71.56	416	600	69.33
HOG-LBP	56.28	314	600	52.33
H	63.78	377	600	62.83
S	68.12	391	600	65.17
V	64.14	375	600	62.50
RGB + H	78.26	451	600	75.17
RGB + S	75.26	440	600	73.33
RGB + V	78.21	445	600	74.17
RGB + LBP	75.23	446	600	74.33
RGB + HOG	77.58	460	600	76.67
RGB + HOG + H	86.29	498	600	83.00
RGB + HOG + S	82.15	475	600	79.17
RGB + HOG + V	84.26	493	600	82.17
RGB + LBP + H	96.13	561	600	93.50
RGB + LBP + S	88.14	525	600	87.50
RGB + LBP + V	92.36	541	600	90.17
RGB + HSV + LBP-HOG	990.56	537	600	89.50

下载: 导出CSV

| 显示表格

图9给出了本文树种识别模型对6类树种测试结果的混淆矩阵^[25]。混淆矩阵的每一列代表树种实际的类别，每一行代表模型预测后的类别，直观地对本文模型的识别效果进行展示。本文识别模型得到的混淆矩阵，在对角线上显示高值，在矩阵的其余部分显示低值。混淆矩阵用从蓝色到红色的颜色标度表示，蓝色表示低值，红色表示高值。从图9中可以看出，对角线上红色最多，说明识别准确率最高，也进一步说明，本文提出的树种识别算法模型取得了理想的识别效果。

图 9 树种识别结果的混淆矩阵

bh：白桦Betula platyphylla；zzs：樟子松Pinus sylvestris var. Mongolica；lys：落叶松Larix gmelinii；sy：山杨Populus davidiana；bps：白皮松Pinus bungeana；xs：雪松Cedrus deodara

Figure 9. Confusion matrix of tree species recognition results

下载: 全尺寸图片幻灯片

2.4 不同方法的实验结果

为验证本文提出的3路并列CNN网络模型的有效性，与SVM分类器、BP神经网络以及现有的深度学习LeNet-5模型、VGG-16模型作比较，比较结果见表4。由表4中数据可以看出，本文方法对6类树种的识别率最高。原因为：SVM和BP分类器，过度依赖于手动提取图像特征，尤其是在提取特征的过程中，不可避免的会发生一些图像关键特征的遗漏和受无关因素干扰的现象，造成识别率低；另外，LeNet-5模型，虽然是深度学习方法，但最初的设计仅仅应用于手写数字的识别，且一般情况下为灰度图像，在处理复杂的树种图像时，识别能力受到了大大的限制；VGG-16模型，是由13层卷积层和3层全连接层构成的深度学习模型，更适合于大样本量的数据识别，对于本文树种图像的小样本来说，对模型泛化能力的提高是一件困难的事，因此也没有取得理想的识别效果。本文的3路并列网络模型，从数据集中自动提取图像特征，从不同角度对图像特征进行深入挖掘并学习，使得模型泛化能力变强，识别效果理想。

表 4 与其他方法的识别率比较结果

Table 4. Comparison results of recognition rates with other methods %

方法 Method	识别率 Recognition rate
方法 Method	白桦 Betula platyphylla	樟子松 Pinus sylvestris var. mongolica	落叶松 Larix gmelinii	雪松 Cedrus deodara	山杨 Populus davidiana	白皮松 Pinus bungeana
SVM	47.25	48.41	48.02	44.95	43.66	45.28
BP	36.25	39.41	40.25	39.65	39.12	38.25
LeNet-5	59.28	55.36	57.25	54.78	55.45	52.36
VGG-16	63.21	60.17	66.28	64.58	64.11	60.29
本文方法 Method in this study	92.80	91.50	88.70	90.10	90.40	93.50

下载: 导出CSV

| 显示表格

3. 结论与讨论

3.1 结　论

本文根据在树种图像识别时存在类内差异、类间相似的现象，提出3路并列CNN网络模型对6类树种图像进行识别。通过设计11层（4层卷积层、4层池化层、3层全连接层）CNN网络模型，分成3路，通过将RGB图像像素值特征、HSV图像色彩特征、LBP纹理和HOG形状特征进行融合，作为CNN模型的识别输入特征，在最后一层全连接层进行特征汇总，对树种种类进行识别分类。本文方法在一定程度上避免了单一特征或传统手动提取特征造成识别率低的问题，并在与SVM、BP、LeNet-5模型、VGG-16模型的比较实验中，识别效果更好，模型泛化能力得到大大提高。

众所周知，树种图像特征选择的好坏，直接影响着最终的识别结果。本文从全局特征中选择了LBP特征和HOG特征，分别从树种图像纹理和形状的角度出发，对树种图像特征做进一步表达。

本文实验研究结果表明，多特征融合的树种种类识别相对于单一特征和传统手动特征的识别方法，具有更好的识别能力。另外，多特征融合的分类器取得了对6类树种图像的最高识别率。

3.2 讨　论

尽管本文研究取得了理想的识别结果，但不同树种图像对应不同的特征，本文的CNN网络模型和参数是否仍能取得同样的识别结果，有待进一步验证。在后续的研究工作中，进一步扩大树种样本的种类和数量，继续探索更具代表性的图像特征，不断调试模型参数和权重，寻找最优的网络模型，训练出更好的CNN树种识别模型。

图 1 6类树种图像

Figure 1. 6 tree species images

下载: 全尺寸图片幻灯片

图 2 树种图像样本数

Figure 2. Sample number of tree species images

下载: 全尺寸图片幻灯片

图 3 并列CNN网络结构

Figure 3. Parallel CNN network structure

下载: 全尺寸图片幻灯片

图 4 准确率与损失率

Figure 4. Training accuracy rate and loss rate

下载: 全尺寸图片幻灯片

图 5 RGB图像训练特征图

Figure 5. Training feature map of RGB image

下载: 全尺寸图片幻灯片

图 8 HOG图像训练特征图

Figure 8. Training feature map of HOG images

下载: 全尺寸图片幻灯片

图 6 HSV图像训练特征图

Figure 6. Training feature map of HSV images

下载: 全尺寸图片幻灯片

图 7 LBP图像训练特征图

Figure 7. Training feature map of LBP images

下载: 全尺寸图片幻灯片

图 9 树种识别结果的混淆矩阵

Figure 9. Confusion matrix of tree species recognition results

下载: 全尺寸图片幻灯片

表 1 本文方法的实验结果

Table 1 Experimental results in this paper %

项目 Item	樟子松 Pinus sylvestris var. mongolica	山杨 Populus davidiana	白桦 Betula platyphylla	落叶松 Larix gmelinii	雪松 Cedrus deodara	白皮松 Pinus bungeana
验证识别准确率 Accuracy rate of verification and recognition	91.50	90.40	92.80	88.70	90.10	93.50
平均验证识别准确率 Average accuracy rate of verification and recognition	91.17

下载: 导出CSV

表 2 不同卷积核数目的训练准确率

Table 2 Training accuracy rate of different convolution kernel numbers

卷积核数目 Convolution kernel number	训练准确率 Training accuracy rate/%
32-64-64-128	75.26
32-64-128-64	72.21
32-64-128-192	78.28
48-64-128-128	75.12
48-128-192-128	81.79
48-128-128-192	82.23
64-128-128-128	96.13
64-128-192-192	91.27
64-64-128-192	92.02

下载: 导出CSV

表 3 不同特征组合的识别率

Table 3 Recognition rate of different feature combinations

特征 Feature	训练准确率 Training accuracy rate/%	验证准确集 Verification accuracy set	验证集 Validation set	验证识别准确率 Verifying the recognition accuracy rate/%
RGB	75.21	433	600	72.17
HSV	71.56	416	600	69.33
HOG-LBP	56.28	314	600	52.33
H	63.78	377	600	62.83
S	68.12	391	600	65.17
V	64.14	375	600	62.50
RGB + H	78.26	451	600	75.17
RGB + S	75.26	440	600	73.33
RGB + V	78.21	445	600	74.17
RGB + LBP	75.23	446	600	74.33
RGB + HOG	77.58	460	600	76.67
RGB + HOG + H	86.29	498	600	83.00
RGB + HOG + S	82.15	475	600	79.17
RGB + HOG + V	84.26	493	600	82.17
RGB + LBP + H	96.13	561	600	93.50
RGB + LBP + S	88.14	525	600	87.50
RGB + LBP + V	92.36	541	600	90.17
RGB + HSV + LBP-HOG	990.56	537	600	89.50

下载: 导出CSV

表 4 与其他方法的识别率比较结果

Table 4 Comparison results of recognition rates with other methods %

方法 Method	识别率 Recognition rate
方法 Method	白桦 Betula platyphylla	樟子松 Pinus sylvestris var. mongolica	落叶松 Larix gmelinii	雪松 Cedrus deodara	山杨 Populus davidiana	白皮松 Pinus bungeana
SVM	47.25	48.41	48.02	44.95	43.66	45.28
BP	36.25	39.41	40.25	39.65	39.12	38.25
LeNet-5	59.28	55.36	57.25	54.78	55.45	52.36
VGG-16	63.21	60.17	66.28	64.58	64.11	60.29
本文方法 Method in this study	92.80	91.50	88.70	90.10	90.40	93.50

下载: 导出CSV

参考文献(25)

[1]	王昌腾. 基于应用型人才培养提高学生树木识别教改探索[J]. 现代园艺, 2018(13):165−166. Wang C T. Exploration on the teaching reform of improving students'tree recognition based on the cultivation of applied talents[J]. Modern Horticulture, 2018(13): 165−166.
[2]	Richter R, Reu B, Wirth C, et al. The use of airborne hyperspectral data for tree species classification in a species-rich Central European forest area[J]. International Journal of Applied Earth Observation and Geoinformation, 2016, 52: 464−474. doi: 10.1016/j.jag.2016.07.018
[3]	Pham L T H, Brabyn L, Ashraf S. Combining QuickBird, LiDAR, and GIS topography indices to identify a single native tree species in a complex landscape using an object-based classification approach[J]. International Journal of Applied Earth Observation and Geoinformation, 2016, 50: 187−197. doi: 10.1016/j.jag.2016.03.015
[4]	陈明健, 陈志泊, 杨猛, 等. 叶片传统特征和距离矩阵与角点矩阵相结合的树种识别算法[J]. 北京林业大学学报, 2017, 39(2):108−116. Chen M J, Chen Z B, Yang M, et al. A tree species identification algorithm combining traditional leaf characteristics and distance matrix with corner matrix[J]. Journal of Beijing Forestry University, 2017, 39(2): 108−116.
[5]	李可心, 戚大伟, 牟洪波, 等. 基于灰度共生矩阵与SOM神经网络的树皮纹理特征识别[J]. 森林工程, 2017, 33(3):24−27. doi: 10.3969/j.issn.1006-8023.2017.03.006 Li K X, Qi D W, Mou H B, et al. Bark texture recognition based on gray level co-occurrence matrix and SOM neural network[J]. Forest Engineering, 2017, 33(3): 24−27. doi: 10.3969/j.issn.1006-8023.2017.03.006
[6]	杨洋. 基于小波变换及SVM理论的树木种类识别研究[D]. 哈尔滨: 东北林业大学, 2017. Yang Y. Research on tree species recognition based on wavelet transform and SVM theory[D]. Harbin: Northeast Forestry University, 2017.
[7]	于海鹏, 刘一星, 刘镇波. 基于图像纹理特征的木材树种识别[J]. 林业科学, 2007,43(4):77−81,146−147. doi: 10.3321/j.issn:1001-7488.2007.04.013 Yu H P, Liu Y X, Liu Z B. Wood species identification based on image texture features[J]. Forestry Science, 2007,43(4): 77−81,146−147. doi: 10.3321/j.issn:1001-7488.2007.04.013
[8]	孙伶君, 汪杭军, 祁亨年. 基于分块LBP的树种识别研究[J]. 北京林业大学学报, 2011, 33(4):107−112. Sun L J, Wang H J, Qi H N. Study on tree species identification based on block LBP[J]. Journal of Beijing Forestry University, 2011, 33(4): 107−112.
[9]	Bertrand S, Ameur R B, Cerutti G, et al. Bark and leaf fusion systems to improve automatic tree species recognition[J]. Ecological Informatics, 2018, 46: 57−73. doi: 10.1016/j.ecoinf.2018.05.007
[10]	Zhao Z Q, Ma L H, Cheung Y, et al. ApLeaf: an efficient android-based plant leaf identification system[J]. Neurocomputing, 2015, 151: 1112−1119. doi: 10.1016/j.neucom.2014.02.077
[11]	赵鹏超, 戚大伟. 基于卷积神经网络和树叶纹理的树种识别研究[J]. 森林工程, 2018, 34(1):56−59. doi: 10.3969/j.issn.1006-8023.2018.01.013 Zhao P C, Qi D W. Study on tree species identification based on convolution neural network and leaf texture[J]. Forest Engineering, 2018, 34(1): 56−59. doi: 10.3969/j.issn.1006-8023.2018.01.013
[12]	Li Q, You X, Li K, et al. Deep hierarchical feature extraction algorithm[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(2): 127−136.
[13]	Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278−2324. doi: 10.1109/5.726791
[14]	Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of Advances in Neural Information Processing Systems. Cambridge: Massachusetts Institute of Technology Press, 2012: 1106−1114.
[15]	Deng J, Dong W, Socher R, et al. ImageNet: a large-scale hierarchical image database[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Washington D C: IEEE Computer Society, 2009: 248−255.
[16]	Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C/OL]. arXiv, 2014[2018−05−06]. https://arxiv.org/pdf/1409.1556.pdf.
[17]	Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Washington D C: IEEE Computer Society Press, 2015: 1−9.
[18]	He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, Vegas: IEEE, 2016: 770−778.
[19]	李彦冬, 郝宗波, 雷航. 卷积神经网络研究综述[J]. 计算机应用, 2016, 36(9):2508−2515, 2565. doi: 10.11772/j.issn.1001-9081.2016.09.2508 Li Y D, Hao Z B, Lei H. A review of convolutional neural networks[J]. Computer applications, 2016, 36(9): 2508−2515, 2565. doi: 10.11772/j.issn.1001-9081.2016.09.2508
[20]	Zeiler M D, Fergus R. Stochastic pooling for regularization of deep convolutional neural networks[C/OL]. arXiv, 2013 [2018−04−16]. https://arxiv.org/pdf/1301.3557.pdf.
[21]	Nair V, Hinton G E, Farabet C. Rectified linear units improve restricted Boltzmannmachines[C]//Processing of the 27th International Conference on Machine Learning. Haifa: International Machine Learning Society (IMLS), 2010: 807−714.
[22]	周飞燕, 金林鹏, 董军. 卷积神经网络研究综述[J]. 计算机学报, 2017, 40(6):1229−1251. doi: 10.11897/SP.J.1016.2017.01229 Zhou F Y, Jin L P, Dong J. Summary of convolution neural network research[J]. Acta Computer Science, 2017, 40(6): 1229−1251. doi: 10.11897/SP.J.1016.2017.01229
[23]	刘涛, 周先春, 严锡君. 多通道多模式融合LBP特征的纹理相似度计算[J]. 计算机应用研究, 2018, 35(12):3803−3806. doi: 10.3969/j.issn.1001-3695.2018.12.063 Liu T, Zhou X C, Yan X J. Computation of texture similarity based on multi-channel and multi-mode LBP features[J]. Computer Applications, 2018, 35(12): 3803−3806. doi: 10.3969/j.issn.1001-3695.2018.12.063
[24]	尚俊. 基于HOG特征的目标识别算法研究[D]. 武汉: 华中科技大学, 2012. Shang J. Target recognition algorithm based on HOG features[D]. Wuhan: Huazhong University of Science and Technology, 2012.
[25]	张盼. 基于混淆矩阵的分类器选择集成方法研究[D]. 焦作: 河南理工大学, 2016. Zhang P. Ensemble method of classifier selection based on confusion matrix[D]. Jiaozuo: Henan Polytechnic University, 2016.

施引文献(18)

期刊类型引用(5)

1.	王晓红，辛守英，张薇，焦琳琳. 基于主成分分析下贝叶斯优化卷积神经网络模型人工林树种识别的研究. 森林工程. 2025(02): 298-311 . 百度学术
2.	徐竞怡，张志，闫飞，张雯悦. 基于GAN-DCNN的树叶识别. 林业科学. 2024(04): 40-51 . 百度学术
3.	丁鋆，徐爱俊，吴小芬，周素茵. 基于多特征融合和知识蒸馏的亚热带常见乔木识别方法. 电子技术应用. 2024(08): 1-9 . 百度学术
4.	段宇飞，孙记委，董庚，王焱清. 基于HOG+LBP特征的油茶果壳籽自动识别方法. 现代食品科技. 2024(10): 270-275 . 百度学术
5.	王明谦，杨旭，许清风，陈溪，张志宇，刘辉. 基于钻芯法的既有木结构树种鉴定研究. 施工技术. 2020(15): 9-11+56 . 百度学术

其他类型引用(13)

资源附件(0)

图(9) / 表(4)

计量

文章访问数: 4633
HTML全文浏览量: 1615
PDF下载量: 266
被引次数: 18

1. 材料与方法
1.1 图像数据集
1.2 卷积神经网络
1.3 特征提取
1.3.1 RGB图像
1.3.2 HSV图像
1.3.3 LBP特征
1.3.4 HOG特征
1.4 构建树种识别CNN模型
1.5 识别结果评价标准
2. 结果与分析
2.1 模型训练特征图显示
2.2 卷积核数目对实验的影响
2.3 不同特征组合对实验的影响
2.4 不同方法的实验结果
3. 结论与讨论
3.1 结　论
3.2 讨　论

1. 材料与方法
1.1 图像数据集
1.2 卷积神经网络
1.3 特征提取
1.3.1 RGB图像
1.3.2 HSV图像
1.3.3 LBP特征
1.3.4 HOG特征
1.4 构建树种识别CNN模型
1.5 识别结果评价标准
2. 结果与分析
2.1 模型训练特征图显示
2.2 卷积核数目对实验的影响
2.3 不同特征组合对实验的影响
2.4 不同方法的实验结果
3. 结论与讨论
3.1 结　论
3.2 讨　论

参考文献(25)

施引文献(18)

资源附件(0)

基于多特征融合和CNN模型的树种图像识别研究

作者简介: 刘嘉政。主要研究方向：林业信息技术应用。Email：liujiazheng0919@163.com 地址：100091北京市海淀区香山路东小府1号中国林业科学研究院资源信息研究所

责任作者: 王雪峰，博士，研究员。主要研究方向：森林资源监测与计算机视觉。Email：xuefeng@ifrit.ac.cn 地址：同上

计量

出版历程

Image recognition of tree species based on multi feature fusion and CNN model

1. 材料与方法

1.1 图像数据集

1.2 卷积神经网络

1.3 特征提取

1.3.1 RGB图像

1.3.2 HSV图像

1.3.3 LBP特征

1.3.4 HOG特征

1.4 构建树种识别CNN模型

1.5 识别结果评价标准

2. 结果与分析

2.1 模型训练特征图显示

2.2 卷积核数目对实验的影响

2.3 不同特征组合对实验的影响

2.4 不同方法的实验结果

3. 结论与讨论

3.1 结 论

3.2 讨 论

期刊类型引用(5)

其他类型引用(13)

计量

出版历程

目录

1. 材料与方法

1.1 图像数据集

1.2 卷积神经网络

1.3 特征提取

1.3.1 RGB图像

1.3.2 HSV图像

1.3.3 LBP特征

1.3.4 HOG特征

1.4 构建树种识别CNN模型

1.5 识别结果评价标准

2. 结果与分析

2.1 模型训练特征图显示

2.2 卷积核数目对实验的影响

2.3 不同特征组合对实验的影响

2.4 不同方法的实验结果

3. 结论与讨论

3.1 结 论

3.2 讨 论

作者简介:
刘嘉政。主要研究方向：林业信息技术应用。Email：liujiazheng0919@163.com 　地址：100091北京市海淀区香山路东小府1号中国林业科学研究院资源信息研究所

责任作者:
王雪峰，博士，研究员。主要研究方向：森林资源监测与计算机视觉。Email：xuefeng@ifrit.ac.cn　地址：同上

3.1 结　论

3.2 讨　论

3.1 结　论

3.2 讨　论