ID3算法背景知识

xiaohua 2025-01-10ID3 id3算法

最初的ID3算法起源于1975年，由Ross Quinlan在悉尼大学的研究中提出，这在《机器学习》研究所的硕士论文中有所阐述，编号为民国1号。ID3算法的核心是概念学习系统（CLS）的构建，其基本流程如下：

步骤1：如果所有训练实例对于特性C都为正，就创建一个“是”节点并停止。相反，如果所有实例都为负，则创建一个“无”节点并停止。接下来，选择一个特性F（如v1至vn），并在其值的基础上划分训练集为C1、C2等子集。

步骤2：对每个子集递归地应用ID3算法，专家（训练者）负责决定选择哪些特性进行划分。

后续版本的ID3算法在特征选择上加入了启发式改进，它通过寻找在训练集中最能区分实例的属性来进行分割。如果一个属性可以完全分类训练集，算法则停止；否则，它会递归地进行n次分割（n为一个属性可能划分出的子集数量），选取最优属性。ID3采用贪心搜索策略，即每次选择最优属性，不考虑之前的选择。

决策树是一种用于预测的工具，通过数据分类达到目的。其工作原理是首先根据训练数据生成决策树，如果树不能准确分类所有对象，就将部分异常对象添加回训练集，重复这个过程直到形成正确的决策树。决策树由决策节点、分支和叶子组成，根节点位于顶部，决策节点代表问题或决策，而叶子节点则代表分类结果。在分类过程中，从根节点开始，根据测试条件选择分支，最终到达一个叶子节点，以此判断对象所属类别。