关联规则（Apriori）算法介绍和代码举例-CFANZ编程社区

关联规则（Apriori）算法介绍

关联规则学习是一种用于发现数据集中变量之间关系的技术，广泛应用于市场篮子分析、推荐系统等领域。Apriori算法是最著名的关联规则挖掘算法之一，旨在寻找频繁项集并从中生成关联规则。

Apriori算法的基本步骤

生成候选项集：从数据集中生成所有可能的项集，并计算它们的支持度（support），即项集在数据中出现的频率。
筛选频繁项集：根据设定的最小支持度阈值，筛选出频繁项集。
生成关联规则：从频繁项集中生成关联规则，并计算它们的置信度（confidence），即在项集A出现的情况下，项集B出现的概率。
筛选规则：根据设定的最小置信度阈值，筛选出有效的关联规则。

Python 示例代码

以下是一个使用 Python 的 mlxtend 库实现 Apriori 算法的示例代码：

import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules

# 创建示例数据集
data = {
    'TransactionID': [1, 2, 3, 4, 5, 6],
    'Item': ['Milk', 'Bread', 'Bread', 'Milk', 'Bread', 'Butter']
}

df = pd.DataFrame(data)

# 将数据转换为适合 Apriori 算法的格式
basket = df.groupby(['TransactionID', 'Item'])['Item'].count().unstack().reset_index().fillna(0).set_index('TransactionID')
basket = basket.applymap(lambda x: 1 if x > 0 else 0)

# 计算频繁项集
frequent_itemsets = apriori(basket, min_support=0.5, use_colnames=True)

# 生成关联规则
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.5)

# 输出结果
print("频繁项集:")
print(frequent_itemsets)
print("\n关联规则:")
print(rules)