FP增长算法算法说明
FP增长算法是一种用于挖掘频繁模式的数据挖掘技术,它主要基于两个核心概念:FP-Tree和条件模式基。FP-Tree是构建算法的基础,它是通过将事务数据库中的每个事务数据项按照支持度排序,然后将每个事务中的数据项以降序插入到以NULL为根的树中,每个结点的计数记录了该结点的支持度。
条件模式基则是FP-Tree中与后缀模式关联的前缀路径的集合,这些前缀路径与特定条件共同出现。而条件树则是根据条件模式基的构造原则,形成的新FP-Tree,用于进一步挖掘模式。
挖掘频繁模式的过程分为两步:首先构造FP-Tree。输入为一个事务数据库D和一个最小支持度阈值。算法步骤如下:扫描数据库一次,确定频繁项和它们的支持度,然后按照支持度排序。接着,遍历每个事务,按照排序后的频繁项构建FP-Tree。对于每个事务,取出频繁项并递归插入到树中。
挖掘过程使用FP-growth算法,输入为已构建的FP-Tree。如果树只有一个路径P,对路径中节点的所有组合生成模式B,并计算其支持度。若树不止一个路径,对每个节点的ai生成模式B,计算其支持度,然后构造条件模式库和条件FP树,对非空的条件树递归调用FP-growth。
条件模式基则是FP-Tree中与后缀模式关联的前缀路径的集合,这些前缀路径与特定条件共同出现。而条件树则是根据条件模式基的构造原则,形成的新FP-Tree,用于进一步挖掘模式。
挖掘频繁模式的过程分为两步:首先构造FP-Tree。输入为一个事务数据库D和一个最小支持度阈值。算法步骤如下:扫描数据库一次,确定频繁项和它们的支持度,然后按照支持度排序。接着,遍历每个事务,按照排序后的频繁项构建FP-Tree。对于每个事务,取出频繁项并递归插入到树中。
挖掘过程使用FP-growth算法,输入为已构建的FP-Tree。如果树只有一个路径P,对路径中节点的所有组合生成模式B,并计算其支持度。若树不止一个路径,对每个节点的ai生成模式B,计算其支持度,然后构造条件模式库和条件FP树,对非空的条件树递归调用FP-growth。