【机器学习】大白话讲懂关联规则Apriori算法+手撕例题
本文旨在以简单直白的方式讲解关联规则Apriori算法及其应用实例解析。在阅读后,如果你觉得文章有帮助,欢迎点赞、收藏、关注,下次不会迷路。
原理篇
Apriori算法,又称为关联分析或购物篮分析,目的是识别出一组物品中的相关物品。 啤酒尿布 案例是最为人熟知的例子(如需了解详情,自行搜索了解)。Apriori算法通常分为两个主要步骤:
频繁项集生成(Frequent Itemset Generation):找出所有满足最小支持度阈值的项集,这些项集称为频繁项集。
规则生成(Rule Generation):从频繁项集中提取出所有具有高置信度的规则,这些规则称为强规则(必须满足最小支持度和最小置信度要求)。
接下来,我们将探讨支持度和置信度的概念以及为何满足最小支持度和最小置信度的规则被定义为强规则。
支持度指的是特定项集在数据集中出现的频率,即同时购买特定项集的实例数量占总实例数量的比例。例如,{牛奶,尿不湿}→{啤酒}的支持度是购买了牛奶和尿不湿的顾客中,同时购买啤酒的顾客占总顾客的比例。
置信度是特定规则在数据集中出现的概率,即在购买特定项集的顾客中,同时购买特定结果项的概率。以{牛奶,尿不湿}→{啤酒}为例,置信度是购买了牛奶和尿不湿的顾客中,同时购买啤酒的顾客占总购买牛奶和尿不湿的顾客的比例。
为了筛选出强关联规则,支持度和置信度的阈值至关重要。支持度和置信度的设定有助于识别出具有显著关联的规则。
实例解析
步骤1:候选1项集→频繁1项集
分析数据,筛选出候选频繁1项集,并计算它们的支持度(即支持度 = 有购买该物品的人数 / 总人数)。比较计算结果与最小支持度,以确定频繁1项集。
步骤2-3:候选2项集→频繁2项集;候选3项集→频繁3项集
重复步骤1中的过程,直至无法进行更多项集的筛选(如,本例中筛选至频繁3项集{面条、牛奶、啤酒})。
步骤4:写出频繁N项集的非空真子集,并计算置信度
例如,计算{面条}→{牛奶、啤酒}的置信度,即同时购买面条、牛奶和啤酒的人数 / 购买面条的人数。计算所有关系的置信度,比较计算结果与最小置信度,筛选出强关联规则。
本文结束,希望本文能够为读者提供帮助,欢迎点赞、收藏、关注。更多精彩文章推荐,敬请关注。