ID3算法背景知识

最初的ID3算法起源于1975年,由Ross Quinlan在悉尼大学的研究中提出,这在《机器学习》研究所的硕士论文中有所阐述,编号为民国1号。ID3算法的核心是概念学习系统(CLS)的构建,其基本流程如下:

步骤1:如果所有训练实例对于特性C都为正,就创建一个“是”节点并停止。相反,如果所有实例都为负,则创建一个“无”节点并停止。接下来,选择一个特性F(如v1至vn),并在其值的基础上划分训练集为C1、C2等子集。

步骤2:对每个子集递归地应用ID3算法,专家(训练者)负责决定选择哪些特性进行划分。

后续版本的ID3算法在特征选择上加入了启发式改进,它通过寻找在训练集中最能区分实例的属性来进行分割。如果一个属性可以完全分类训练集,算法则停止;否则,它会递归地进行n次分割(n为一个属性可能划分出的子集数量),选取最优属性。ID3采用贪心搜索策略,即每次选择最优属性,不考虑之前的选择。

决策树是一种用于预测的工具,通过数据分类达到目的。其工作原理是首先根据训练数据生成决策树,如果树不能准确分类所有对象,就将部分异常对象添加回训练集,重复这个过程直到形成正确的决策树。决策树由决策节点、分支和叶子组成,根节点位于顶部,决策节点代表问题或决策,而叶子节点则代表分类结果。在分类过程中,从根节点开始,根据测试条件选择分支,最终到达一个叶子节点,以此判断对象所属类别。