• Acta Optica Sinica
  • Vol. 40, Issue 16, 1628002 (2020)
Mingjing Yan and Xiyou Su*
Author Affiliations
  • School of Information Science and Technology, Beijing Forestry University, Beijing 100083, China
  • show less
    DOI: 10.3788/AOS202040.1628002 Cite this Article Set citation alerts
    Mingjing Yan, Xiyou Su. Hyperspectral Image Classification Based on Three-Dimensional Dilated Convolutional Residual Neural Network[J]. Acta Optica Sinica, 2020, 40(16): 1628002 Copy Citation Text show less

    Abstract

    Hyperspectral image is typical high-dimensional data which contains abundant information in both spectral and spatial dimensions. In this paper, a hyperspectral image classification method based on three-dimensional dilated convolutional residual neural network is proposed for characterizing large amounts of data in the spectral dimension during hyperspectral image classification. In this method, hyperspectral pixel cubes were applied as input data. Further, a three-dimensional convolutional kernel was used to simultaneously extract the spectral and spatial characteristics of hyperspectral data. Then the receptive field of the convolutional kernel was enhanced without adding network parameters or reducing data features by introducing a dilated structure in the convolutional kernel. Thus, the classification accuracy of the neural network was improved, avoiding the problem of gradient disappearance caused by the deepening of network layers using a residual structure. Finally, the Softmax classifier was used to complete the classification of hyperspectral pixels. Results show that this method obtained an overall classification accuracy of 97.303% and 97.236% on the Indian Pines and Salinas datasets, respectively, exhibiting a better classification effect than other control groups. Thus, the proposed method can improve the classification performance of hyperspectral images.

    1 引言

    遥感卫星影像的应用一直都是世界各国重点研究的方向,在各应用方向中,遥感影像分类是其中非常重要的一支。在现阶段,随着空间高分辨率和光谱高分辨率遥感影像的出现,遥感影像分类技术得到了快速发展。高光谱遥感影像的像元可以提供大量的空间维与光谱维信息,从而大大提高了遥感影像分类的精度[1]

    遥感影像的自动分类方法一般可以分为三大类,即监督分类、非监督分类、半监督分类。常用的监督分类方法有Logistic回归(LR)、支持向量机(SVM)、最小距离分类(MDC)、最大似然分类(MLC)[2-3];非监督分类方法有K-Means均值算法、迭代自组织的数据分析法(ISODATA)等[4]。上述方法均基于遥感影像中的浅层特征进行学习和分类,依据浅层特征的线性或非线性处理结果来区分不同的地物。上述方法的优势是实现起来比较简单、计算量小、方便部署,劣势是分类精度不高。随着遥感影像传感器和计算机技术的飞速发展,基于浅层特征的分类方法逐渐失去优势,同时,基于浅层特征的方法不能学习到高光谱遥感影像中更复杂的信息[5],因此以卷积神经网络(CNN)为代表的深度学习成为遥感影像地物分类的新趋势。

    滕文秀等[6]首次将深度学习的概念应用于高光谱影像分类,使用堆叠式自动编码器(SAE)提取高光谱影像的光谱维和空间维信息,取得了良好的效果。Zhong等[7]使用包含三维卷积层的光谱空间残差网络(SSRN)提取高光谱影像立方体特征,通过引入残差结构来缓解由网络深度增加引起的梯度消失问题;在高光谱影像分类中,该方法的分类精度较传统方法有了很大提升。此外,还有研究者提出了一种基于门控循环单元(GRU)的级联递归神经网络(RNN)模型,并通过增加若干卷积层来提取空间维和光谱维的特征[8]

    三维结构的高光谱影像通常同时包含空间信息以及丰富的光谱信息。单纯基于光谱特征或基于空间特征的分类方法都不能完全发挥高光谱影像的优势[9]。在对三维数据进行处理时,最小距离法和SVM等基于光谱的分类方法很难获取空间维的信息,而二维卷积神经网络(2D-CNN)不能很好地获取光谱维信息。与前述两类方法相比,将空间信息和光谱信息相结合的三维卷积神经网络(3D-CNN)在进行高光谱图像分类时更符合高光谱影像的特点,有利于提高光谱影像分类的精度。同时,为解决高光谱影像光谱维数据量较大的问题,本文引入了空洞卷积结构,该结构能在不增加网络参数的情况下扩增卷积层的感受野,避免了采用池化层等传统方法扩增时引起的特征丢失问题。该思路最初见于医学图像处理领域处理图像数量巨大的核磁共振影像[10]。本文考虑到医学影像与高光谱影像数据结构具有一定的相似性,受其启发,提出了一种基于三维空洞卷积残差结构的卷积神经网络高光谱影像分类方法,以提高高光谱影像地物分类的精度。

    2 研究方法

    2.1 3D-CNN

    CNN最初被用于二维数据的处理与分析,在目标识别、图像分割等方面具有良好的应用效果。但是,传统CNN使用的卷积核通常是二维的,在处理高光谱影像这种三维结构的高维数据时就需要引入大量参数,在处理标注信息较少的高光谱影像时,有可能产生过拟合现象。同时,高光谱遥感影像在空间维也包含有大量信息,2D-CNN的卷积核结构不利于同时提取像元的空间信息与光谱信息[11]。为对上述问题进行优化,可引入3D-CNN。如图1所示,3D-CNN不是将空间信息和光谱信息作为独立的特征进行提取,而在空间维和光谱维上同时进行运算,可以同时提取空谱特征。

    Two-dimensional and three-dimensional convolution network diagrams. (a) 2D-CNN; (b) 3D-CNN

    Figure 1.Two-dimensional and three-dimensional convolution network diagrams. (a) 2D-CNN; (b) 3D-CNN

    3D-CNN的卷积核会在三个方向上移动,计算神经网络第i层第j个特征图在(x,y,z)处的点值V的计算公式为

    {Invalid MML}

    式中:m表示第i-1层中与当前特征图相连的特征图;LiWi表示卷积核的长度和宽度;Hi表示卷积核在光谱维度上的尺寸;W代表与i-1层相连的第m个特征图的连接权值;bi,j表示第i层第j个特征图的偏置;f为激活函数。3D-CNN最初由Ji等[12]提出并应用于人体运动识别,目前在视频分析和医疗影像处理领域应用得较多。3D-CNN与2D-CNN最大的差别是3D-CNN的卷积核会在三维方向上进行卷积操作,可以获取到光谱维信息,适合处理高光谱影像数据这样的三维数据。

    2.2 空洞卷积

    对于高光谱影像,线性组合中的两个波段的图层距离通常较远。以植被识别与监测中常用的归一化植被指数(NDVI)为例,在机载可见光/红外成像光谱仪(AVIRIS)高光谱卫星的遥感影像数据中,红色波段(655.56 nm)与近红外波段(819.48 nm)间隔19个图层,需要使用3个以上长度为3的卷积核才能覆盖上述两个图层,进而提取到NDVI特征。若要通过3D-CNN以较少的卷积层数量学习到上述光谱特征,则需要扩大卷积层的感受野。扩大感受野的常用方法是扩大卷积核或添加池化层(pooling),虽然较大的三维卷积核有利于神经网络获取更多的光谱上下文信息,但会增加网络的计算负荷,而使用池化层则会牺牲一部分特征。在此情况下,引入空洞卷积层替代传统池化层,可以在减少数据损失的同时扩大卷积层的感受野[13]

    空洞卷积在原始卷积核的基础上,通过在值与值之间插入权重为0的行与列来扩大卷积核的感受野,如图2所示。空洞卷积使用膨胀系数r来控制插入权重为0的行和列的数量,这样得到的卷积核的感受野的长、宽、高均为L+(L-1)(r-1),L代表原卷积核的边长。当原始3D卷积核为3×3×3时,其单核感受野范围与卷积核尺寸一致,而转化为空洞3D卷积核则可以使单核感受野增至5×5×5。当多个卷积层组合时,空洞卷积核的优势就会更加明显,原始3×3×3的3D卷积核经过3层叠加,最终的感受野为7×7×7,r=2的空洞卷积核则为13×13×13,从而使得在处理高光谱数据时,可以更频繁地感受到更多的光谱特征。

    Normal and dilated convolution kernel diagrams. (a) Normal kernel; (b) dilated kernel (r=2)

    Figure 2.Normal and dilated convolution kernel diagrams. (a) Normal kernel; (b) dilated kernel (r=2)

    2.3 残差结构

    与浅层神经网络相比,深层CNN具有更多的非线性映射结构,可完成结构复杂的函数逼近,获得的特征更加抽象,提取到的语义信息更加完整,适合处理数据量大的高光谱影像数据[14]。然而,神经网络层次的加深会带来梯度消失的问题,靠前部分的隐藏层权值更新缓慢或者更新停滞,导致分类的准确率不再继续增加,出现随着层次增加准确率反而下降的情况。为解决上述问题,He等[15]提出了残差网络(ResNet),其中的残差结构可以有效解决由神经网络深度增加而导致的梯度下降问题。

    残差结构最大的特点就是采用跳层连接,这使得其相较于普通神经网络具有更好的学习性能。残差模块输入与输出的关系可以表示为

    {Invalid MML}

    式中:H(x)表示计算结果;x表示模块输入;f(x)表示残差学习函数。残差结构可根据具体需要对f(x)进行相应的改变,可将(2)式扩充为

    {Invalid MML}

    式中:xy分别对应残差模块的输入与输出;f(x,{Wi})表示待训练的残差映射,输入x和残差映射f的维度需保持一致。在省略偏差的情况下,可将残差映射写成f(x,{Wi})=W2σ(W1x),其中σ为激活函数,在这里表示ReLU激活函数。

    若输入x和残差映射f的维度不一致,则需要在跳层连接上增加一个线性投影Ws来使维度相同,即

    {Invalid MML}

    在残差模块训练过程中,输出是由输入与其矩阵变化的结果相加得到的,并未引入新的参数,网络的参数量不会变化,在不影响反向传播过程的同时能够加快模型的训练速度并提高训练效果。

    3 网络结构与参数分析

    3.1 网络结构

    普通的CNN通常适用于二维平面数据,在处理高光谱影像这种高维数据时,不能很好地同时提取到空间维和光谱维特征。针对此问题,本文提出了一种包含空洞卷积层和残差连接的3D-CNN,用它对高光谱影像进行地物分类。进入神经网络后,在网络前段进行浅层特征提取,并去除部分噪声,在网络中段进行深度特征的提取,提取出深度特征后,在网络后段降低数据量和进一步去除噪声,最终使用Softmax分类器完成像元块数据的地物分类。

    残差特征学习部分包含两个空洞卷积结构块,每个结构块包含3个卷积层。为深入探讨空洞卷积层对神经网络的影响,本文从感受野覆盖范围和形式以及累加线性特征进行非线性处理两方面进行研究。本文假设了如图3所示的空洞卷积层与普通卷积层的7种排列组合方式以及残差结构块内部激活函数的2种分布策略。

    Seven permutation and combination types of dilated and normal convolutional layers and two activation function distribution strategies. (a) Type 1; (b) type 2; (c) type 3; (d) type 4; (e) type 5; (f) type 6; (g) type 7; (h) distribution strategy Ⅰ; (i) distribution strategy Ⅱ

    Figure 3.Seven permutation and combination types of dilated and normal convolutional layers and two activation function distribution strategies. (a) Type 1; (b) type 2; (c) type 3; (d) type 4; (e) type 5; (f) type 6; (g) type 7; (h) distribution strategy Ⅰ; (i) distribution strategy Ⅱ

    不同空洞卷积结构块在训练时均采用相同的训练参数和训练集,并选用总体精度(OA)、平均精度(AA)和Kappa系数 (Kappa)作为模型精度的评价指标。表1为不同空洞卷积层与普通卷积层排列组合策略的训练结果评价,表2为不同结构块内部激活函数分布策略的训练结果评价。

    Structure typeIndian PinesSalinas
    KappaOAAAOA-meanKappaOAAAOA-mean
    Type 1-Ⅰ95.85296.97692.04196.94295.79796.98694.52496.823
    Type 2-Ⅰ95.67696.85191.49995.53496.79494.748
    Type 3-Ⅰ95.88597.00091.38395.38896.69094.694
    Type 4-Ⅰ95.15596.48090.50196.50595.86297.02895.02796.943
    Type 5-Ⅰ94.81196.23289.87295.80896.99194.772
    Type 6-Ⅰ95.60996.80191.55995.55496.81094.666
    Type 7-Ⅰ95.68096.85591.33596.85595.32096.64494.19296.644

    Table 1.

    表1表2可知:双空洞卷积层与单普通卷积层组合(Type 1、Type 2、Type 3)的平均总体精度整体上高于单空洞卷积层与双普通卷积层组合(Type 4、Type 5、Type 6)的平均总体精度,但全空洞卷积层组合的总体精度整体上低于双普通卷积层组合的平均总体精度。双空洞卷积层与单普通卷积层的组合以残差块为激活单元进行激活(分布策略Ⅰ),激活的效果整体上优于逐层进行激活的策略(分布策略Ⅱ)。

    虽然空洞卷积结构能够扩大卷积层的感受野,但是单纯增加空洞卷积层的效果并不能取得最优的感受野分布效果。由图4可以看出:纯空洞卷积层组合的感受野虽然面积较大,而且空洞卷积层的特性使得部分数据位置的访问频次很大,但有较多的数据位置并没有被访问到;空洞卷积层与普通卷积层组合的感受野的访问频次分布得更加均匀,虽然感受野面积略小于前者,但在感受野范围内不存在未访问的数据位置。综合卷积核分布效果可知:纯空洞卷积层组合的感受野跨度为13,在3种分布策略中最大,但其有效访问像元数量仅为49;一空洞二卷积组合的感受野跨度为9,在3种分布策略中最小,其有效访问像元数量为81;二空洞一卷积组合的感受野跨度为12,仅比纯空洞卷积组合小1,但有效访问像元数量为121,综合性能最好。表1表2的分类精度结果也支持这一结论。

    Structure typeIndian PinesSalinas
    KappaOAAAOA-meanKappaOAAAOA-mean
    Type 1-Ⅱ95.97697.06691.91296.97395.80496.98994.79396.944
    Type 2-Ⅱ95.69896.86691.80095.88397.04594.903
    Type 3-Ⅱ95.86696.98791.95695.53296.79694.432
    Type 4-Ⅱ95.77596.92191.83996.68995.45596.74194.26296.856
    Type 5-Ⅱ94.79896.22090.17995.71896.92894.737
    Type 6-Ⅱ95.78396.92791.54395.67696.89894.682
    Type 7-Ⅱ95.61896.80891.35196.80895.45796.73994.56896.739

    Table 2.

    Receptive field's distributions of different convolution combinations. (a) Dilation parameter distribution is (2,2,2); (b) dilation parameter distribution is (1,2,2); (c) dilation parameter distribution is (1,1,2)

    Figure 4.Receptive field's distributions of different convolution combinations. (a) Dilation parameter distribution is (2,2,2); (b) dilation parameter distribution is (1,2,2); (c) dilation parameter distribution is (1,1,2)

    综合比较表1表2的分类精度,最终选取Type 1-Ⅱ的空洞卷积结构块组成残差特征学习部分。CNN整体结构如图5所示。

    Network structure

    Figure 5.Network structure

    该网络分为三个主体部分:part 1包含2个卷积核大小为3×3×7、通道数为16的3D卷积层,其中1个为空洞卷积层;part 2包含8个卷积核大小为3×3×3、通道数分别为32和48的3D卷积层,其中有5个为空洞3D卷积层;part 3包含2个Maxpooling层,2个卷积核大小为3×3×5、通道数为24的3D卷积层,以及2个卷积核大小3×3×3、通道数为16的3D卷积层,所有卷积层的卷积模式均为same,并在归一化之后使用ReLU函数进行激活。在数据通过神经网络后,为避免过拟合,在结果分类前添加参数为0.4的Dropout层,最终的分类由全连接层和Softmax分类器完成。

    本网络输入的数据为7×7×N的像元块,N为像元块的光谱维长度,数据标签为像元块空间几何中心像元所属的地类。为模拟实际的应用场景,训练数据集和验证数据集中均混入了未进行地物类别标注的背景像元,训练集和验证集的像元数量均为总像元数量的50%,训练集中包含20%的已标记地物类别的像元,验证集中包含80%的已标记地物类别的像元。

    实验总流程可以分为训练网络和验证网络两大部分,训练网络包含制作训练数据和训练神经网络两部分。在训练网络阶段,首先在原图像中按比例抽取已标记和未标记的高光谱像元立方体,进行随机混序排列,然后将它们依次输入到网络模型中进行特征提取,最终使用Softmax分类器进行分类。在验证网络阶段,先将验证数据依次输入到已训练好的网络模型中,提取出分类特征,采用Softmax分类器进行分类预测,然后使用精度评价指标验证网络的有效性。

    3.2 参数设置与分析

    在空洞CNN中,膨胀系数(dilation rate)是一个很重要的参数,代表卷积核中有效行列之间不参与计算的行和列的个数。扩大因子增大会使卷积核的覆盖范围变大,从而扩大感受野,使卷积层能够学习到更广的特征,但也会使一部分细节信息被忽视掉。

    在实验中,选取2~7共6个扩大因子,对其影响进行分析。考虑到数据集中各地类的像元数量极不平衡,最终选用OA、AA和Kappa系数作为模型精度的评价指标,其中,OA表征对总体分类结果的评价,AA表征各类别自身分类精度的均值,Kappa系数表征模型分类结果与参考结果的一致程度。空洞卷积层中不同膨胀系数对应的精度结果如图6所示。

    Corresponding precision of dilation rate in two datasets. (a) Indian Pines spectral dimension; (b) Salinas spectral dimension; (c) Indian Pines spatial dimension; (d) Salinas spatial dimension

    Figure 6.Corresponding precision of dilation rate in two datasets. (a) Indian Pines spectral dimension; (b) Salinas spectral dimension; (c) Indian Pines spatial dimension; (d) Salinas spatial dimension

    实验结果表明:在空间维,空洞参数虽然可以发挥一定作用,但当空洞参数超过2之后,空间维空洞结构的增大反而会带来负面影响,即卷积核尺寸大于数据块的空间维尺寸,影响分类精度;在光谱维,空洞参数与总体精度OA之间不是线性关系,随着空洞参数增大,总体精度OA先小幅下降再上升,然后再下降。当空洞参数开始增大时,卷积层感受野扩张范围不足,同时特征损失增加,导致总体精度OA下降;当空洞结构增大到一定范围时,感受野的扩张使卷积层能学习到更多的特征,从而弥补了空洞结构所导致的特征损失,使分类精度AA升高;随着空洞参数继续增大,由于光谱维数据有限,感受野的增大并不能学习到更多的特征,而空洞结构的特征损失继续增大,从而导致分类精度AA再次下降。综合两个数据集的实验结果,本文选取光谱维为4、空间维为2的空洞参数。

    4 实验结果与分析

    为评价本文所提神经网络结构的分类效果,选取Indian Pines以及Salinas两个典型的高光谱遥感数据集进行地物分类实验。

    Indian Pines数据集是由AVIRIS于1992年对美国印第安纳州一块实验地进行成像得到的遥感图像,空间分辨率为20 m,包含145×145个地物像素和224个光谱通道,去掉水分吸收较强的光谱通道(第104~108通道,第150~163通道,第220通道)后,共有200个光谱通道可用于分类。该数据集包含16个地物类别和1个背景类别,其中包含10249个已标记地物类别的像元和10776个背景像元。

    Salinas数据集是由AVIRIS于1998年对美国加利福尼亚州的Salinas山谷进行成像的遥感图像,空间分辨率为3.7 m,包含512×217个地物像素和224个光谱通道,去掉水分吸收较强的光谱通道(第108~112通道,第154~167通道,第224通道)后,共有200个光谱通道可用于分类。该数据集包含16个地物类别和1个背景类别,其中包含54129个已标记地物类别的像元和56975个背景像元。

    图7为上述两个地区的伪彩色合成图像。

    Pseudo-color composite images of two datasets. (a) Indian Pines; (b) Salinas

    Figure 7.Pseudo-color composite images of two datasets. (a) Indian Pines; (b) Salinas

    Class nameClassification accuracy
    SVM2D-CNNRes-3DCNNM3D-DCNN3D-CNNDilated-3D-CNN
    Background69.12398.79798.40699.24099.37699.653
    Alfalfa24.34852.17473.58769.13082.06582.065
    Corn-notill61.58385.00784.35288.23593.09294.492
    Corn-mintill40.12680.62486.64089.32992.94894.555
    Corn29.47377.42684.32588.27093.41892.806
    Grass-pasture73.11383.01383.04686.11590.97191.766
    Grass-trees75.99389.37089.41192.49394.94596.075
    Grass-pasture-mowed23.75058.03670.89370.71478.75081.786
    Hay-windrowed85.47197.40697.41697.69998.18098.441
    Oats22.75049.25047.00072.00075.25087.000
    Soybean-notill55.71084.76784.26888.97193.89795.307
    Soybean-mintill71.53691.44089.66893.73396.44997.132
    Soybean-clean40.78072.68675.94186.16989.77192.119
    Wheat84.29393.31794.75695.68396.58597.390
    Woods55.48686.64486.06792.51895.63695.945
    Buildings-Grass-Trees-Drives28.45558.50363.96577.53287.94690.303
    Stone-Steel-Towers33.44177.79681.66786.23790.86089.570
    Kappa54.79188.31788.51492.54195.37796.304
    OA64.63691.72191.82094.62296.63497.303
    AA51.49678.60381.84886.71091.18592.730

    Table 3.

    Class nameClassification accuracy
    SVM2D-CNNRes-3DCNNM3D-DCNN3D-CNNDilated-3D-CNN
    Background70.50298.29598.36598.49198.67298.806
    Brocoli-green-weeds-194.55695.76891.59486.57395.88896.374
    Brocoli-green-weeds-295.45698.33297.77298.55298.35598.395
    Fallow44.09886.18073.33686.28289.65390.567
    Fallow-rough-plow60.74082.12380.28986.59688.23890.585
    Fallow-smooth47.04387.95787.58089.40291.42391.356
    Stubble98.96496.41995.92687.17696.58396.638
    Celery91.56296.46296.15997.39997.12297.837
    Grapes-untrained83.63692.16592.61893.30095.89696.643
    Soil-vinyard-develop64.36293.48292.08593.86595.14296.079
    Corn-senesced-green-weeds79.29792.46690.87692.52795.59795.165
    Lettuce-romaine-4wk71.19694.18093.15394.09495.78195.058
    Lettuce-romaine-5wk31.65195.91690.49794.71497.73898.093
    Lettuce-romaine-6wk22.85886.09671.33190.29191.74592.651
    Lettuce-romaine-7wk52.25586.67083.94488.42689.78990.792
    Vinyard-untrained38.98785.98283.51987.33093.21895.129
    Vinyard-vertical-trellis97.66295.99096.00696.23196.06896.388
    Kappa61.95193.26792.01393.22695.56796.149
    OA70.69795.18594.32495.17896.82097.236
    AA67.34392.02889.12191.83894.52495.091

    Table 4.

    实验所用的计算机配置为Intel(R) Core(TM) i7-7700HQ CPU,NVIDIA GeForce GTX 1070,16 GB内存,在Windows 10系统下基于Python 3.71的Keras框架实现。实验数据使用主成分分析(PCA)法进行预处理,在保留99.9%原始特征的条件下对光谱维进行压缩。在网络中使用Adam优化器进行网络训练,初始学习率为0.001,设置损失函数的稳定容忍值为4,每次触发使学习率降低到其当前值的1/10。网络各卷积层采用He normal[16]进行初始化,激活函数选用ReLU。

    为验证本文提出的网络模型的有效性,选取了5个网络模型对照组,包括经典的SVM分类算法、相同网络层次结构的2D-CNN、Res-3DCNN[17]、M3D-DCNN[18]、相同网络层次结构的3D-CNN。在相同网络层次结构的对照组中,所有的CNN对照组只在卷积和池化层属性上有差异,层数和位置关系均保持一致,并使用相同的训练与验证数据集以及相同的网络训练参数进行训练。所有对照实验的结果均为20次实验结果的均值。表3表4分别为5个网络模型对照组与本文所提网络模型Dilated-3D-CNN在Indian Pines数据集与Salinas数据集上的分类精度。

    表3表4可知:在进行高光谱像元分类时,CNN经过了多层次的特征学习与筛选,其分类精度和Kappa系数普遍优于传统机器学习算法SVM;包含3D卷积结构的Res-3DCNN、M3D-DCNN、3D-CNN与Dilated-3D-CNN的分类精度与Kappa系数均高于2D-CNN,这表明3D结构在高光谱像元分类中可以提取到更多的特征,具有一定优势;Dilate-3D-CNN的Kappa系数与分类精度均高于3D-CNN;在网络参数量一致的情况下,Kappa系数和总体分类精度OA在Indian Pines和Salinas数据集上分别提升了0.927和0.669个百分点、0.582和0.416个百分点,这表明在卷积层中加入空洞结构可以提高CNN的分类性能。

    图8图9为各个模型在Indian Pines和Salinas数据集上的分类结果。由于数据经过了PCA处理,故而属于线性分类的SVM的分类效果明显逊于神经网络。3D-CNN与Dilated-3D-CNN的分类效果如上文所述,错分的情况要少于其他模型。将二者进行对比后可发现,3D-Dilated-CNN的分类边界更加平滑,已标记像元与背景像元的错分现象更少,更贴近真实地物分布。

    Classification images of different network models in Indian Pines dataset. (a) True value image; (b) SVM; (c) 2D-CNN; (d) Res-3DCNN; (e) M3D-DCNN; (f) 3D-CNN; (g) Dilated-3D-CNN

    Figure 8.Classification images of different network models in Indian Pines dataset. (a) True value image; (b) SVM; (c) 2D-CNN; (d) Res-3DCNN; (e) M3D-DCNN; (f) 3D-CNN; (g) Dilated-3D-CNN

    Classification images of different network models in Salinas dataset. (a) True value image; (b) SVM; (c) 2D-CNN; (d) Res-3DCNN; (e) M3D-DCNN; (f) 3D-CNN; (g) Dilated-3D-CNN

    Figure 9.Classification images of different network models in Salinas dataset. (a) True value image; (b) SVM; (c) 2D-CNN; (d) Res-3DCNN; (e) M3D-DCNN; (f) 3D-CNN; (g) Dilated-3D-CNN

    5 结论

    本文研究了CNN在高光谱影像分类中的应用,设计了一种基于三维空洞卷积残差神经网络的分类模型Dilated-3D-CNN,该模型通过在网络中引入空洞结构来扩大卷积层的感受野,提高地物分类的精度。在Indian Pines和Salinas数据集上,将本文所提网络模型与其他5种网络模型进行对比,结果表明,本文设计的网络模型具有最好的分类性能,这说明合适的空洞结构可以在网络参数量不变的基础上提高分类精度。

    基于三维空洞卷积残差神经网络的高光谱影像分类方法可以很好地同时提取空间维特征和光谱维特征,为处理三维高光谱影像数据提供了新思路。在实际应用中,由于现有神经网络程序框架的优化问题,空洞结构仍会给网络带来一定负担。随着框架的优化与发展,三维卷积层和空洞结构将在高光谱影像分类领域具有更大的潜力,如何使用二者来提高分类精度和效率还需要进一步研究。

    References

    [1] Meher S K. Semisupervised self-learning granular neural networks for remote sensing image classification[J]. Applied Soft Computing, 83, 105655(2019).

    [2] Li Y F, Lin H. Multi-spectral remote sensing image classification of ground coverage based on CNN[J]. Microprocessors, 40, 43-48(2019).

    [3] Liu P. Choo K K R, Wang L Z, et al. SVM or deep learning? A comparative study on remote sensing image classification[J]. Soft Computing, 21, 7053-7065(2017).

    [4] Zhao C X, Qian L X. Comparative study of supervised and unsupervised classification in remote sensing image[J]. Journal of Henan University (Natural Science Edition), 34, 90-93(2004).

    [5] Cao L L, Li H T, Han Y S et al. Application of convolutional neural networks in classification of high resolution remote sensing imagery[J]. Science of Surveying and Mapping, 41, 170-175(2016).

    [6] Teng W X, Wang N, Chen T S et al. Deep adversarial domain adaptation method for cross-domain classification in high-resolution remote sensing images[J]. Laser & Optoelectronics Progress, 56, 112801(2019).

    [7] Zhong Z L, Li J, Luo Z M et al. Spectral-spatial residual network for hyperspectral image classification: a 3-D deep learning framework[J]. IEEE Transactions on Geoscience and Remote Sensing, 56, 847-858(2018).

    [8] Mou L C, Ghamisi P, Zhu X X. Deep recurrent neural networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 55, 3639-3655(2017).

    [9] Dai X Y, Xue W. Hyperspectral remote sensing image classification based on convolutional neural network[C]∥37th Chinese Control Conference., 10373-10377(2018).

    [10] Wolterink J M, Leiner T, Viergever M A et al[M]. Dilated convolutional neural networks for cardiovascular MR segmentation in congenital heart disease, 95-102(2017).

    [11] Zhang H K, Li Y, Jiang Y N. Deep learning for hyperspectral imagery classification: the state of the art and prospects[J]. Acta Automatica Sinica, 44, 961-977(2018).

    [12] Ji S W, Xu W, Yang M et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35, 221-231(2013).

    [13] Feng B W, Lü X Q, Gu Y et al. Brain tumor segmentation using three-dimensional parallel CNN combined with dilated convolution[J]. Laser & Optoelectronics Progress, 57, 141009(2020).

    [14] Sun Z J, Xue L, Xu Y M et al. Overview of deep learning[J]. Application Research of Computers, 29, 2806-2810(2012).

    [15] He K M, Zhang X Y, Ren S Q et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 27-30 June 2016, Las Vegas, NV, USA., 770-778(2016).

    [16] He KM, Zhang XY, Ren SQ, et al.Delving deep into rectifiers: surpassing human-level performance on ImageNet classification[C]∥2015 IEEE International Conference on Computer Vision (ICCV). 7-13 Dec. 2015, Santiago, Chile. New York: IEEE Press, 2015: 1026- 1034.

    [17] Ding J, Chen S T. Hyper-spectral remote sensing image classification based on residual 3D convolutional neural network[J]. Laser Journal, 40, 45-52(2019).

    [18] He M Y, Li B, Chen H H. Multi-scale 3D deep convolutional neural network for hyperspectral image classification[C]∥2017 IEEE International Conference on Image Processing (ICIP). 17-20 Sept. 2017, Beijing, China., 3904-3908(2017).

    Mingjing Yan, Xiyou Su. Hyperspectral Image Classification Based on Three-Dimensional Dilated Convolutional Residual Neural Network[J]. Acta Optica Sinica, 2020, 40(16): 1628002
    Download Citation