大数据学习——数据挖掘理论基础-CFANZ编程社区

数据挖掘概述

数据挖掘方法可以是基于数学理论的，也可以是非数学的；可以是演绎的，也可以是归纳的。从研究的历史看，它们是数据库、人工智能、数理统计、计算机科学以及其它方面的学者和工程技术人员，在数据挖掘的探讨性研究过程中创立的理论体系。1997年，Mannila对当时流行的数据挖掘的理论框架做出了综述。结合最新的研究成果，有下面一些重要的理论框架可以准确地解释数据挖掘的概念与技术特点。

理论基础

模式发现（Pattern Discovery）架构
规则发现（Rule Discovery）架构
基于概率和统计理论
微观经济学观点（Microeconomic View）
基于数据压缩（Data Compression）理论
基于归纳数据库（Inductive Database）理论
可视化数据挖掘（Visual Data Mining）

数据挖掘相关概念

统计学
机器学习
数据仓库
多维分析
客户关系管理

数据挖掘知识基础

KDDI

数据挖掘与数据库中的知识发现（KDD）既有联系又有区别，从数据处理的不同层面，分析出数据挖掘自身的特点。

KDD 可看成数据挖掘的一个特例
数据挖掘是KDDI过程的一个步骤
KDDI与数据挖掘含义相同

数据集

功能与分类

分类：按照分析对象的属性、特征，建立不同的类来描述事物
聚类：识别分析出内在的规则，按照这些规则把对象分成若干类
关联规则和序列模式发现：关联是某种事物发生时其它事物也会发生的一种联系
预测：把握分析对象发展的规律，对未来的趋势做出预见
偏差检测：对分析对象的少数的、极端的特例进行描述，提示内在的原因。
根据数据挖掘的对象划分，有如下若干种数据源：关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据、异质数据库、遗产（Legacy）数据库，以及Web数据源。

根据数据挖掘的方法可粗分为：统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析等），以及模糊集、粗糙集、支持向量机等。
机器学习方法可细分为：归纳学习方法（决策树、规则归纳等）、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。
神经网络方法可细分为：前向神经网络（BP算法等）、自组织神经网络（自组织特征映射、竞争学习等）。
数据库方法主要是基于可视化的多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

模式的发现可以分为如下几类

关联规则
序列模式
分类模式
聚类模式
回归模式
偏差分析