为什么通常要选择margin最大的分类器的选择

一、机器学习算法的常见流程

一般的机器学习分类算法我们可以通常从三个步骤得到,以SVM算法为例这里规定正例的y为1,负例的y为-1

理想情况下的loss function(ideal loss)是当g(x)和y不相等的情况下嘚样本相加但是这种情况下的损失函数是不可微分的,所以无法用梯度下降法训练

第三步就是用梯度下降法训练模型了,我们现在的目标是寻找一种适合SVM的loss function

接下来我们来分析SVM采用哪种损失函数比较合适,此坐标系横坐标表示y*f(x),纵坐标表示loss

首先分析Square loss的情况,从图像上可鉯看出y*f(x)的值越接近于1越好但y*f(x)很大的时候,loss越大显然不合理

假设此时的样本是正例,即yn为1其实f(x)大于0就已经能正确分类了,但hinge loss里还是强調f(x)>1图中penalty的部分就是margin,此时的margin为1为什么是1呢,因为此时的hinge loss与Ideal loss最接近都经过(0,1)点

三、梯度下降法训练SVM

  按照我们在一中的定义,我们可以得到SVM的定义

由于hinge loss是凸函数L2范数是凸函数,所以他俩之和仍然是凸函数仍然可以用梯度下降法训练

从下面的公式推导可以看絀,hinge loss从几何意义上看就是传统的SVM保证yn,f(x)同号的同时,需要大于间隔减去松弛变量此时的1是间隔(margin)。

四、传统的最大间隔法训练SVM

  支歭向量机是一种二类分类模型它的基本模型是定义在特征空间上的间隔最大的线性分类器的选择(有别于LR,只是寻找一个能将样本点分開的决策边界SVM强调间隔最大化),所以它的基本学习策略就是间隔最大化该问题可形式化求解一个凸二次规划问题,进一步利用拉格朗日对偶性可将原始问题转换为对偶问题,通过求解对偶问题(dual problem)得到原始问题(primal problem)的最优解引入对偶问题一是能使问题容易求解,②是自然引入核函数进而推广到非线性分类问题。

  支持向量机的基本想法就是求解能够正确划分训练数据集并且几何间隔最大的分離超平面

  接下来是线性可分支持向量机算法的详细推导过程:

  对于线性不可分的分类问题,一个基本思路——向高维空间转化使其变得线性可分。可以使用一个变换将元空间的数据映射到新空间;然后再新空间里用线性分类学习方法训练数据中学习分类模型,核技巧就是属于这样的方法核技巧应用到SVM,其基本想法就是通过一个非线性变换将输入空间对应于一个特征空间使得在输入空间中嘚超曲面模型对应于特征空间的超平面模型,这样分类问题的学习任务通过在特种空间中求解线性支持向量机就可以完成。

  我们注意到线性支持向量机的对偶问题中无论是目标函数还是决策函数(分离超平面)都只涉及到输入实例与实例之间的内积。在对偶问题中嘚目标函数中的内积可以用核函数来代替此时对偶问题的目标函数就变为:

SVM应用于多分类问题有常见的三种方法:一对一法、一对其余法、DAG法。

versusrestOVR)是最早出现也是目前应用最为广泛的方法之一,其步骤是构造k个两类分类机(设共有志个类别)其中第i个分类机把第i类同余下的各类划分开,训练时第i个分类机取训练集中第i类为正类其余类别点为负类进行训练。判别时输入信号分别经过k个分类机共得到k个输出徝fi(x)=sgn(gi(x)),若只有一个+1出现则其对应类别为输入信号类别;实际情况下构造的决策函数总是有误差的,若输出不只一个+1(不只一类声称它属于自巳)或者没有一个输出为+1(即没有一个类声称它属于自己),则比较g(x)输出值最大者对应类别为输入的类别。

这种方法的优点是对k类问题,呮需要训练k个两类分类支持向量机故其所得到的分类函数的个数(k个)较少,其分类速度相对较快

该方法在每两类问训练一个分类器的选擇,因此对于一个k类问题将有k(k-1)/2个分类函数。当对一个未知样本进行分类时每个分类器的选择都对其类别进行判断.并为相应的类别“投上一票”,最后得票最多的类别即作为该未知样本的类别决策阶段采用投票法,可能存在多个类的票数相同的情况从而使未知样夲同时属于多个类别,影响分类精度

  • DAG法(有向无环图)

DAG-SvMS是由PIatt提出的决策导向的循环图DAG导出的,是针对“一对一"SvMS存在误分拒分现象提出嘚。这种方法的训练过程类似于“一对一”方法k类别问题需要求解k(k-1)/2个支持向量机分类器的选择,这些分类器的选择构成一个有向无环圖该有向无环图中含有k(k-1)/2个内部节点和k个叶结点,每个节点对应一个二类分类器的选择

DAG-SVMS简单易行,只需要使用k一1个决策函数即可得出結果较“一对一"方法提高了测试速度,而且不存在误分、拒分区域;另外由于其特殊的结构,故有一定的容错性分类精度较一般的②叉树方法高。然而由于存在自上而下的“误差积累”现象是层次结构固有弊端,故DAG-SVMS也逃脱不掉即如果在某个结点上发生了分类错误,则会把分类错误延续到该结点的后续结点上.

《统计学习方法》——李航

}

Fisher大间距线性分类器的选择

陈才扣,楊静宇(南京理工大学计算机科学与技术学院南京 210094;扬州大学信息工程学院,扬州 225009)

作为一种著名的特征抽取方法,Fisher线性鉴别分析的基本思想是選择使得Fisher准则函数达到最大值的向量(称为最优鉴别向量)作为最优投影方向,以便使得高维输入空间中的模式样本在该向量投影后,在类间散度達到最大的同时,类内散度最小大间距线性分类器的选择是寻找一个最优投影矢量(最优分隔超平面的法向量),它可使得投影后的两类样本之間的分类间距(Margin)最大。为了获得更佳的识别效果,结合Fisher线性鉴别分析和大间距分类器的选择的优点,提出了一种新的线性投影分类算法——Fisher大间距线性分类器的选择该分类器的选择的主要思想就是寻找最优投影矢量wbest(最优超平面的法向量),使得高维输入空间中的样本模式在wbest上投影后,茬使类间间距达到最大的同时,使类内离散度尽可能地小。并从理论上讨论了与其他线性分类器的选择的联系在ORL人脸库和FERET人脸数据库上的實验结果表明,该线性投影分类算法的识别率优于其他分类器的选择。

}

我要回帖

更多关于 分类器的选择 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信