k近邻算法中关键的要素是
k近邻算法中关键的要素是:k值的选取、邻居距离的度量和分类决策的制订。
1.k值的选取:
k近邻算法优点很明显,简单易用,可解释性强,但也有其不足之处。例如,“多数表决”会在类别分布偏斜时浮现缺陷。也就是说,k值的选取非常重要,出现频率较多的样本将会主导测试点的预测结果。
2.邻居距离的度量:
不量化,无以度量远近。k近邻算法要计算“远亲近邻”,就要求样本的所有特征都能做到可比较的量化。如果样本数据的某些特征是非数值类型的,那也要想办法将其量化。比如颜色,不同的颜色(如红、绿、蓝)就是非数值类型的,它们之间好像没有什么距离可言。但如果将颜色(这种非数值类型)转换为灰度值(数值类型:0~255),那么就可以计算不同颜色之间的距离(或说差异度)。
3.分类决策的制订:
本质上,分类器就是一个由特征向量,到预测类别的映射函数。k近邻算法的分类流程大致如下三步走:(1)计算待测试样本与训练集合中每一个样本的欧式距离;(2)对每一个距离从小到大排序;(3)选择前k个距离最短的样本,分类任务采用“少数服从多数”的表决规则。回归任务则可采用k个近邻的平均值作为预测值。