【十大经典数据挖掘算法】C4.5

决策树模型与学习

决策树算法基于特征属性进行分类,具有可读性好、计算量小、分类速度快的优点。这一类算法包括ID3、C4.5、CART等,其中C4.5是基于ID3改进的决策树算法,优化了分裂属性的选择。决策树模型通过特征属性的分类将样本进行分组。它包括有向边和三类节点:根节点、内部节点和叶子节点。决策树学习本质是从训练数据集中归纳出分类规则。选择最优特征和确定停止分裂条件是决策树学习的关键。信息增益和信息增益比是决策树分裂特征的重要依据。

特征选择

特征选择旨在选择能最大化目标函数的特征。以性别、汽车类型、客户ID为例,直观判断应选择汽车类型作为分裂特征,因为其类别分布更倾斜,不确定性更低。特征选择依据决策树节点的不纯度度量,如熵、基尼指数和交叉熵。信息增益或信息增益比用于衡量分裂前后节点不纯度的变化情况。ID3算法使用熵作为不纯度度量,而CART算法采用二元分裂方法,C4.5算法则改进分裂目标函数为信息增益比。特征选择等同于计算每个特征的信息增益,选择信息增益最大的特征进行分裂。

决策树生成

ID3算法依据信息增益最大的准则,递归地构建决策树。C4.5算法流程类似,只是使用信息增益比作为分裂依据。生成决策树的核心在于选择最佳特征分裂和确定停止分裂的条件。

决策树剪枝

决策树对训练数据具有较好的分类效果,但可能对未知数据预测不准确,即发生过拟合。过拟合导致训练误差小而测试误差大。剪枝策略通过减少模型复杂度来解决过拟合问题。C4.5算法通过极小化决策树的整体损失函数实现剪枝,损失函数包含了训练误差和模型复杂度。具体剪枝算法可以采用动态规划等方法。

参考资料

1. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining.
2. 李航,《统计学习方法》.
3. Naren Ramakrishnan, The Top Ten Algorithms in Data Mining.