1.实验要求
利用SQL Server 2012或者Excel 2013(二者选择其一即可)进行数据挖掘实验,采用聚类和时序挖掘模型和算法,可以对附件中给定的excel数据进行聚类和时序挖掘实验,也可以采用自己采集的数据(如采用自选请说明数据来源)。
2.实验环境
操作系统:windows 11;
软件:Excel 2019;SQL Server 2012;SQL Server 2012 Analysis Services;Microsoft Visual Studio 2010;
3.实验步骤
3.1 Excel 2019 聚类与时序挖掘
(一)聚类分析
【步骤一】数据源为 Microsoft内建数据集
为2002至2013年自行车购买的数据集
(Table Analysis Tools Sample),建立聚类模型,点选“数据建模”下的“聚类分析”,开始建立数据挖掘模型,点选“下一步”。

图 1
【步骤二】在“选取源数据”的界面,数据表下选取Excel中欲分析的数据表。

图 2
【步骤三】在选取数据列的步骤时,勾选纳入聚类的变量,由于ID是为客户编码,所以本次分析不将它纳入聚类变量,接着点选‘下一步”。

图 3
【步骤四】选取聚类变量后,在区段数目选取聚类个数,可以使用软件自动侦测,或是自行指定目标值,本次分析指定目标值为5群,点选“下一步”。

图 4
【步骤五】将数据分割成定型集和测试集,要测试的数据百分比默认为30%。

图 5
【步骤六】院成数据挖掘模型,选项中可以勾选“启用钻取”,接着点选完成钮。

图 6

图 7
【步骤七】产生5个类的聚类图表,若欲将图形复制至Excel接口下操作,可以点选方块左下角“复制至Excel”键。

图 8

图 9
【步骤九】点选“分类剖面图”,显示各个群体在不同变量下的差异。将图形复制至Excel接口下,点选方块左下角“复制至Excel”键。

图 10

图 11
单击age变量“总体”类别下的对应图形,在右侧的挖掘图例中可以看到总体类别下age变量的总体特征值,包括最小值25,最大值78.25,平均值44等等。同样地,也可查看age变量在其他分类下的特征数值,或者其他变量在各个分类下的特征数值。

图 12

图 13
【步骤十一】点选“分类特征”,显示各聚类在不同变量的水平下,分类为此群组的概率值。“分类特征”一目了然地显示了各个变量各取值在各个分类下的占比。

图 14
【步骤十二】图表复制至Excel窗体。

图 15

图 16
将图表复制至Excel后,可以查看具体的占比数值,如上图所示,总体中, “有房否”变量取值为“有”的样本占比为66%,同样地,可查看其他变量相应取值在总体中的占比,也可查看各个变量在其他类别下的相应占比。
【步骤十三】点选“分类对比”,可以在图形上方选取欲比较的两聚类,利用变量水平比较两聚类的差异。

图 17
【步骤十四】图表复制至Excel窗体。

图 18
【步骤十五】同样的,点选“数据建模”下的“高级”,开始建立数据挖掘模型,点选“下一步”,读取数据表,将数据分割成定型集和测试集,最后建立table2的结构模型。

图 19

图 20

图 21

图 22

图 23

图 24

图 25

图 26

图 27
【步骤十六】在选取挖掘算法的步骤,点选“Microsoft聚类分析”,点选“下一步”。

图 28
【步骤十七】在选取数据列的步骤时,在各个变量后方有一栏是“用法”选取,用户可以选取各个变量的使用方式,包含输人、仅预测输入和预测、key 以及不使用等等,本次用是否购买自行车(Purchased Bike)作为预测变量¥,其余变量作为解释变量建立模型,接着点选“下一步”。

图 29
【步骤十八】

图 30
【步骤十九】

图 31
【步骤二十】点击“准确性图表”标签。

图 32
【步骤二十一】在[指定要预测的列和要预测的值]的对话框中,选取进行预测的数据列,本次选取“Purchased Bike”=“No”作为预测值纳入图表。

图 33
【步骤二十二】在[指定关系]的对话框中,选取变量间关联性。
【步骤二十三产生图表到Excel中。

图 34
【步骤二十四】点选“分类矩阵”。

图 35

图 36
【步骤二十五】在“指定要预测的列”方框当中,选择预测的数据列,即自行车购买作为分析变量。勾选“以百分比显示结果”和“以计数显示结果”,生成两种方式显示的两个分类图。

图 37

图 38

图 39

图 40

图 41

图 42

图 43

图 44

图 45

图 46
3.2 时序聚类
【步骤一】点选“高级”→“创建挖掘模型”。
【步骤二】点选“下一步”。

图 47
【步骤三】选择数据表。

图 48

图 49

图 50

图 51

图 52

图 53

图 54

图 55

图 56

图 57

图 58

图 59

图 60
4.实验总结
本次实验分为两大大部分:聚类挖掘、时序挖掘。
使用EXCEL 2019中数据挖掘插件中的先进行数据挖掘,运用准确性图表、分类矩阵、利润来进行 数据挖掘和分析。










