决策边界间具有较大的间隔意味着模型具有较小的泛化误差,而较小的间隔则意味着模型可能过拟合。为了对间隔最大化有个直观的认识,我们仔细观察一下两条平行的决策边界,我们分别称其为正、负超平面,可表示为:
如果我们将等式(1)(2)相减,可以得到:
我们可以通过向量w的长度来对其进行规范化,做如下定义:
由此可以得到如下等式:
上述等式的左侧可以解释为正、负超平面间的距离,也就是我们要最大化的间隔。
在样本正确划分的前提下,最大化分类间隔也就是使最大化,这也是SVM的目标函数,记为:
这两个方程可以解释为:所有的负样本都落在负超平面一侧,而所有的正样本则在正超平面划分出的区域中。它们可以写成更紧凑的形式:
在实践中,通过二次规划的方法,很容易对目标函数的倒数项进行最小化处理。不过关于二次规化的详细内容超出了本书的范围,如果读者感兴趣,可以通过阅读由Springer出版社出版,Vladimir Vapnik的The Nature of Statistical Learning Theory一书,或者查阅Chris J.C.Burger在其论文“A Tutorial on Support Vector Machines for Pattern Recognition”(发表于Data mining and knowledge discovery,2(2):121~167,1998)中的精彩解释。