关联规则学习(Association rule learning)是在
大型数据库中发现变量之间有趣关系的一种方法。其目标是使用特定的量化标准来识别数据库中发现的强规则。这一概念最初由Rakesh Agrawal等人提出,旨在探索超市POS系统记录的大量交易数据中产品的规律性。关联规则学习的应用广泛,不仅限于购物篮分析,还包括网络用法挖掘、入侵检测、连续生产和
生物信息学等领域。
关联规则学习的基本单位是交易数据库,其中每个交易都是项目集合的一个
子集。关联规则的形式为X⇒Y,其中X和Y分别代表先导和后继,它们是互斥的项目集合。关联规则的支持度衡量的是包含X∪Y的交易占总交易的比例,而置信度则表示包含X的交易中同时包含Y的比例。只有同时满足最小支持度和最小置信度的规则才被认为是有趣的。
关联规则按照处理的变量类别、数据的抽象层次和数据的维数进行分类。布尔型关联规则关注数据项是否存在,而多值属性关联规则则探讨数值型或分类型数据项之间的关系。单层关联规则处理单一层次的数据,而多层关联规则能够发掘更高层次的知识。单维关联规则仅涉及一维数据,而多维关联规则则涵盖两维或多维数据。
关联规则学习的核心算法包括Apriori算法和FP-Growth算法。Apriori算法采用自下而上的方法,通过迭代扩展候选集并筛选频繁项目集。FP-Growth算法则采用了分而治之的思想,通过构建FP-Tree来高效地挖掘频繁项集。此外,还有基于图的关联规则挖掘算法,如
AGM、FSG、Span等,它们适用于基于图的数据集。
关联规则学习的实际应用范围广泛,涵盖了购物篮分析、网络用法挖掘、入侵检测、连续生产以及
生物信息学等多个领域。通过对数据集的分析,可以发现各种有趣的关联规则,为企业决策提供有价值的信息。