深入浅出核函数

前言

支持向量机是最重要的机器学习算法之一,支持向量机的一个重要特点是通过核函数进行非线性分类。本文深度剖析了核函数的含义,并从该角度去理解线性回归和非线性分类的问题。

目录


1、线性回归的核函数表示

2、核函数含义解析

3、核函数含义理解线性回归

4、核函数含义理解非线性分类

5、核函数的应用范围

6、总结

线性回归的核函数表示

我们先通过构建最优线性回归模型来引出核函数的表达式

总结:

(1)1.5式就是传说中的核函数方程,核函数方程的展开式有很多种情况,这一节的核函数方程展开式是基函数向量的内积。

(2)1.4式是线性回归的核函数对偶形式,对偶形式都会包含下面这项:

核函数含义解析

我们用1.5式和1.6式来解析核函数的含义。

1.5式和1.6式结合,得:

上式表示,先对输入变量映射为特征空间

,然后在该特征空间下内积。

现在,我们考虑三种常用的基函数,分别为多项式基函数,高斯基函数,S型基函数。

令输入变量x'为常数,x'的值用红色叉号表示,可以画出x与k(x,x')的关系曲线:

图的第一行为基函数曲线,第二行为x与核函数k(x,x')的曲线。

由上图可知,核函数k(x,x')取得最大值的必要条件是x=x',核函数值的大小可以表示两个输入变量x和x'的相似度。举例说明这一含义:

如上图第二列,归一化的正态分布在x=0具有最大概率,当两个输入变量值都是0时,核函数具有最大值,它们的相似度最高。

如上图第三列,S型函数值表示P(y=1|x)的概率,当两个输入变量都是1时,核函数具有最大值,它们的相似度最高。

因此,核函数的含义可以用相似度来解释,若两个输入变量的特征空间

都较大,则两个输入变量在该核函数下具有较高的相似度。

核函数含义理解线性回归

为了阅读方便,1.4式预测目标表达式:

结论

线性回归可以理解成训练目标值的权值相加,权值与核函数成正比,若输入特征与某一训练样本的特征相似度越高,相应的核函数越大,则对应的权值就越大,该训练样本的目标变量对预测目标变量的影响亦越大。

核函数含义理解非线性分类

解决如下图的二分类问题,不同形状表示不同的类。

(1)显示映射法

分类效果图如下:

(2)核函数法

我们知道核函数的含义是相似度,我们考虑用高斯核函数进行分类,高斯核函数用样本的相对距离来表示相似度,若相对距离越小,则相似度越大,反之相似度越小。

首先用核函数将低维映射成高维空间,然后用线性支持向量机的方法进行分类(后续文章会详细讲支持向量机算法)。

请用核函数法

第二节用显示映射函数的方法说明了核函数的含义,这一节用该方法求决策函数,但是这种方法难点在于定义显示映射函数,而核函数法是隐式的映射特征空间且核函数法计算k(x,x')比较容易,因此推荐核函数法作特征的多维映射。

核函数的应用范围

这一节用一句话来概括:凡是有特征内积出现的式子都可以用核函数来代替。

如下图:

左边为核函数,右边为内积。

总结

本文详细的解释了核函数的含义——相似度,然后从核函数的角度去理解线性回归和非线性分类,核函数是隐式的特征空间映射,不需要定义特征映射函数。特征内积出现的式子都可以用核函数来代替,因此,核函数在支持向量机的非线性分类具有不可替代的作用。

参考

李航 《统计学习方法》

Christopher M.Bishop <<Pattern Reconition and Machine Learning>>

(0)

相关推荐