人工智能——聚类总述-CFANZ编程社区

人工智能——聚类总述

1 无监督学习的目标

2 聚类(clustering)

2.1 欧氏距离

2.2 曼哈顿距离

2.3 马氏距离

2.4 夹角余弦

3 Sklearn & 聚类

3.1 概述

3.2 sklearn.cluster

4 降维

4.1 概述

4.2 聚类 vs.降维

4.3 sklearn vs.降维

1 无监督学习的目标

利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。

• 有监督学习和无监督学习的最大区别在于数据是否有标签。

• 无监督学习最常应用的场景是聚类 (clustering) 和降维 (Dimension Reduction)。

聚类 (clustering) ，就是根据数据的“相似性”将数据分为多类的过程。

评估两个不同样本之间的“相似性” ，通常使用的方法就是计算两个样本之间的“距离”。

使用不同的方法计算样本间的距离会关系到聚类结果的好坏。

（1）scikit-learn 库（以后简称 sklearn 库）提供的常用聚类算法函数包含在 sklearn.cluster这个模块中，如： K-Means ，近邻传播算法，DBSCAN ，等。

（2）以同样的数据集应用于不同的算法，可能会得到不同的结果，算法所耗费的时间也不尽相同，这是由算法的特性决定的。下图是我们调用sklearn库的标准函数对不同数据集执行的聚类结果。

降维，就是在保证数据所具有的代表性特性或者分布的情况下，将高维数据转化为低维数据的过程： (1)数据的可视化 (2) 精简数据

人工智能——聚类总述_无监督学习_13

聚类和降维都是无监督学习的典型任务，任务之间存在关联，比如某些高维数据的聚类可以通过降维处理更好的获得，另外学界研究也表明代表性的聚类算法如k-means 与降维算法如 NMF 之间存在等价性.

(1)降维是机器学习领域的一个重要研究内容，有很多被工业界和学术界接受的典型算法，截止到目前sklearn 库提供 7 种降维算法。

(2)降维过程也可以被理解为对数据集的组成成份进行分解（ decomposition ）的过程，因此sklearn 为降维模块命名为 decomposition, 在对降维算法调用需要使用sklearn.decomposition 模块.

sklearn.decomposition

0 条评论