k近邻算法特征值非数字
k-近邻算法采用测量不同特征值之间的距离来进行分类。
优点:精度高,对异常值不敏感,无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和分类型。原理:首先,我们必须得有一份含有分类标签的数据集,为训练数据集。比如我们要预测用户是否会流失,那么分类标签就是流失和未流失。然后有一份新的数据集,这份数据集并没有分类标签,k-近邻算法就会将新的数据集和训练数据集进行比较,从训练数据集中选出与新数据集每个数据最相近的K个数据,查看这K个数据所属标签哪类最多,比如流失,就把新数据集中的那个数据分类为流失。怎么判断是否相近呢?K-近邻是计算不同数据的距离。k-近邻算法的原理伪代码。
对未知类别属性的数据集中的每个数据点依次执行以下操作:(1)计算已知类别数据集中的点与当前点之间的距离。(2)按照距离递增次序排序。(3)选出与当前距离最近的K个点。(4)统计出K个点所属类别的频率。(5)返回K个点出现频率最高的的类别作为当前点的预测类别
优点:精度高,对异常值不敏感,无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和分类型。原理:首先,我们必须得有一份含有分类标签的数据集,为训练数据集。比如我们要预测用户是否会流失,那么分类标签就是流失和未流失。然后有一份新的数据集,这份数据集并没有分类标签,k-近邻算法就会将新的数据集和训练数据集进行比较,从训练数据集中选出与新数据集每个数据最相近的K个数据,查看这K个数据所属标签哪类最多,比如流失,就把新数据集中的那个数据分类为流失。怎么判断是否相近呢?K-近邻是计算不同数据的距离。k-近邻算法的原理伪代码。
对未知类别属性的数据集中的每个数据点依次执行以下操作:(1)计算已知类别数据集中的点与当前点之间的距离。(2)按照距离递增次序排序。(3)选出与当前距离最近的K个点。(4)统计出K个点所属类别的频率。(5)返回K个点出现频率最高的的类别作为当前点的预测类别