传统的独立分量分析(ICA)算法无法确定高光谱数据中独立分量的个数,利用概率神经网络(PNN)训练时间短的优点,根据分类精度可以较快地确定出独立分量的个数。提出了一种在确定高光谱数据的维数之后利用支持向量机(SVM)分类的新算法思想,首先利用ICA对高光谱数据降维,并利用PNN确定出独立分量的个数,而后对降维后的数据利用SVM作交叉验证,并采用混合核函数进行分类的算法思想。通过仿真实验表明,该算法可以在保证分类精度的同时大大减少分类的时间。王祥涛,冯燕,吴政:高光谱数据分类新方法研究2010,46(10)155于非线性滤波、模式分类、联想记忆和概率密度估计当中。个类和剩余的类。OAO方法包括K(K-1)2个两类SVM分由于高光谱数据降维后的数据量仍然很大,采用BP神经类器,每一个训练好的分类器用来区分2个类别。测试时,对于网络进行分类必然需要较长的时间,采用概率神经网络进行分个未知样本,所有的K(K-1)2个两类分类器采用投票法决类可以较快的得到分类的结果,从而在较短的时间内利用交叉策,即每个分类器都对其类别进行判定,并为相应的类别投上验证确定出独立分量的个数。票,最后得票最多的类别即作为该未知样本的类别。DAG方法训练过程和OAO方法一样,一共训练出K(K-1)/2个两类4支持向量机sVM分类器。不同的是,在测试阶段,DAG方法使用一个从根41支持向量机概述开始的二分有向无环图,它有K(K-1)2个内部节点和K个叶支持向量机( Support Vector Machine,SVM)是20世纪90子节点。给定一个测试样本,从根节点开始,采用二分决策,根年代由 Vapnik等人提出的一种新的学习机。SVM的核心思想据其输出值转到左节点或者右节点,这样一直到叶子节点,由是把数据非线性映射到高维特征空间在高维特征空间中构造叶子节点米确定最后的归属:采用性能较好的0A0听方法对遥具有低VC维最优分类超平面。SVM算法通过综合考虑经感数据进行分类。验风险和置信范围,根据结构风险最小化(SRM)归纳原则,寻43交叉验证求使风险上界最小的函数作为判决函数为了确定支持向量机分类时采用的最佳参数,最常用的方SVM的数学描述可以表示为:在约束条件法就是多次交叉验证(n- fold cross-- validation),由此得到的SVM模型既具有一定的分类精度,又具有良好的泛化性能。n是分y(wd(x1)+b)≥1-;≥1,=1,2,…,(9)组数,如n=3就是拆成3组,然后先用1和2来训练分类器并求解ww+C∑的极小值。预测3以得到正确率;再用2和3训练并测试1,最后用1跟3训练并测试2,其他以此类推。用来做 cross-- validation的数据通过求其对偶问题,归结为一个二次函数极值问题,即在组数对参数的选择影响并不太大,就是说选为5或10并不会约束条件:导致最后选到的参数大相径庭。通常比较重要的参数就是γ和∑ya=00≤a≤C,i=1,2,…,C(RBF核函数),一般需要对每个参数遍历以找到最优参数(10)对于每一个给定的参数对(C,y),对训练集样本均进行n次交叉验证,将这n次的测试结果取平均值作为该参数对的指标,求解Q(a)=∑a-1∑ a, a yy, K(x)的最大值。其中C是最后选择指标最高的一组参数对作为最终的最优参数组合训惩罚系数,用来控制误差ξ(松弛变量)边界的平衡。练分类器,并对未知样本进行测试。求解上述问题后得到的最优分类判别函数为44基于独立分量分析的高光谱数据分类新方法高光谱数据维数高,波段间相关性较高,LCA可以利用数fx=sgn(>a y, K(x, x)+b)11)据之间的高阶统计特性,消除波段间数据的相关性,提取后的其中K(x;,x)=(x1)d(x)是核函数。分量之间是相互独立的,可以更好地揭示数据之间的本质结在解决线性不可分问题,它通构,所以新算法中采用FaCA对高光谱数据降维,利用PNN过引入核函数,巧妙地解决了在高维空间中的内积运算,从而确定维数,可以保证能更好地提取高光谱数据的特征。利用sM分类采用交叉验证法选择(RBF核函数)参数很好地解决了非线性分类问题。针对数据的不同,可以通过实时,首先把C,y限制在一个范围内,通常C的取值范围在1验比较,选择分类精度最高时采用的核函数支持向量机中常用的核函数有:多项式(POLY)核函数:2,y的取值范围在2~1,平均分类精度最高的参数组合即为K(x,x)=(x+1),径向基(RBF)核函数K(x,x,)=cx最优参数。在求解对偶问题的过程中需要求解Q(a)=∑ay>0, Sigmoid核函数:K(x,x)=tanh(yx2x+c)SVM方法有以下几个主要优点:(1)它是专门针对有限样∑ay,yk(xx)取最大值时a的取值,如果样本x的维本情况的,其目标是得到现有信息下的最优解而不仅仅是样本数过高,在求解c是需要花费大量的时间,由于高光谱原始数数趋于无穷大时的最优值;(2)算法最终将转化成为一个二次据样本的维数很高,直接输入原始数据进行交叉验证,势必花型寻优问题,从理论上说,得到的将是全局最优点解决了在神费大量的时间。采用CA降维后的数据进行交叉验证可以节经网络方法中无法避免的局部极值问题;(3)算法将实际问题省大量的时间。通过非线性变换转换到高维的特征空间( Feature Space),在高SVM的核函数可以分成两大类:全局核函数和局部核函维空间中构造线性判别函数来实现原空间中的非线性判别函数叫。全局核函数具有全局特性,允许相距很远的数据点都可数,特殊性质能保证机器有较好的推广能力。以对核函数的值有影响,而局部核函数具有局部性,只允许相4.2支持向量机多类分类距很近的数据点对核函数的值有影响。其中多项式核函数为全局核函数,其他的核函数为局部核函数。每一种核函数都存在支持向量机本身是用来解决二类分类问题的,不能直接用着自身的局限性,考虑到多项式函数具有良好的推广能力以及于多类分类,目前有许多算法将支持向量机用于多类分类之径向基函数较强的学习能力,采用两个核函数的线性组合,得中。常用的方法主要有三种:一对多(OA)、一对一(OAO)、有到一种新的核函数,用于支持向量机的分类向无环图(DAG)。OA方法是最早使用的一种策略,对于一个N类问题,由N个两类SVM分类器组成,每个分类器用来区分K(x,x)=p(xx+1)+(1b>1可y>0,0≤p≤1(12)1562010,46(1Computer Engineering and Applications计算机工程与应用综上所述,新算法对高光谱数据进行分类的步骤如下:表1分类结果比较(1)使用改进的SMO算法提高SVM学习的效率。分类方法SVM(RBF)新算法(2)对原始数据采用 FastIca算法进行降维。分类精度/(%)90.118992(3)对降维后的数据挑出一部分作为训练样本集,把维数分类时间/s1210453作为需要确定的参数,用PNN进行交叉验证,由分类精度确定最佳的维数。时保留了几乎全部的分类信息,维数从220波段降低为14波(4)对降维后的训练样集样本利用交叉验证得到最优的段,分类精度仅仅降低了不到1%,根据采用原始数据(包括交参数。又叉验证的时间和对未知样本分类的时间)和新算法进行分类的(5)分类时采用混合核函数的方法,对降维后的未知样本时间对比,可以看出,大概节约了626%的时间。进行分类。6结论5实验结果将独立分量分析,概率神经网络和支持向量机应用于高光实验的平台为 Matlab7.04,硬件平台为P41.6GHz笔记谱数据的分类之中,通过实验表明,利用独立分量分析对高光本, IG RAM,操作系统为 Window XP。采用220波段 AVIRIS谱数据降维,并利用概率神经网络确定出高光谱数据的维数,高光谱数据进行实验,经过观察,去掉了噪声较大的30个波可以在降维的同时较好的保留分类信息。采用SVM进行交叉段,使用剩下的190个波段作为待分类的高光谱数据。根据对验证时使用降维后的数据确定参数,可以节省大量寻找最佳参应的GS数据,该地区包含了10种地物,高光谱图像的每个像数的时间,分类精度可以逼近采用原始数据交叉验证寻找最佳元作为一个样本点,每个样本为190×1的列向量。参数得到的最高分类精度。高光谱原始数据的2326个样本作为SVM的输入,使用5次交叉验证法选择支持向量机的最优参数,对于RBF核函数,参考文献:为了准确地找到最佳参数,选取100组参数组合,C取[1] Wang J, Chang C I Dimensionality reduction by independent com20,2,2,…,2,y取[23,2,…,1].其他的核函数根据参数的ponent analysis for hyperspectral image analysis(CEEE Int Geosci特点同样选取100组参数组合。使用不同的核函数,分类精度Remote Sens Symp, Seoul, Korea, Jul 2005也有所不同。对6993个未知样本测试进行分类,使用RBF核2骆剑承,周成虎梁怡,等支撑向量机及其遥感影像空间特征提取函数可以获得较高的分类精度。和分类的应用研究J遥感学报,2002,6(1):50-55分别从高光谱数据中提取10~16个独立分量的7组数据,(3] Chalimourda A, Scholkopf b, Smola AExperimentally optimal v in选取2326个样本,作为概率神经网络的输入,进行3次交叉support vector regression for different noise models and parameter验证来确定维数,分类结果如图2所示。settings[J]. Neural Networks, 2004, 17: 127-1414]董春礒,饶鲜,杨绍全,等支持向量机参数选择方法研究J系统工程与电子技术,2004,26(8):1118-111983[5 Platt J C Fast training of support vector machines using sequentialminimal optimization[ M //Scholkopf B, Burges C, Smola AAdvances81in Kernel Methods Support Vector Machines. Cambridge, MA: MIT8079f6]杨福生,洪波独立分量分析的原理与应用M北京:清华大学出版社,2006[7 Hyvarinen A, Oja E A fast fixed-point for independent componentanalysis[J]. Neural Computation, 1997, 9(7): 1483-1492101112131415168 Specht D F Probabilistic neural networks[)Neural Networks, 1990, 3图2概率神经网络分类结果(1):109-118图2所示为利用PN对LCA降维后的数据进行分类,得9]边肇祺,张学工模式识别M北京:清华大学出版社,2001.到的分类精度,可以看出在维数为14时,分类精度最高,所以W/snCW, Lin c j. A comparison of method for multiclass supportvetor machines[J . IEEE Trans Neural Networks, 2002, 13: 415-425取独立分量的个数为14。[11] Smits G F, Jordaan E M Improving SVM regression using mix表1所示为采用新算法与SVM算法(利用原始数据进行分tures of kernels[C]/IEEE Proceedings of the 2002 International类)的分类精度比较。利用PNN确定维数的整个过程时间为Joint Conference on Neural Networks, 2002, 3: 2785-279017×7=119s,对降维后的数据利用SVM分类的时间为334,整12] Chang C C, Lin C J LIBSVM: a library for support vector ma个新算法需要的时间为334+119=453s,大大低于直接利用hines(version2.85).eb/ol.(2007).hTtp://www.csie.ntu.edu.tw/sVM对原始数据分类所需的时间1210s。新算法在降维的同cilin/papers/ libsvm. pdf