前言
文章目录
- 前言
- 聚类算法
- 经典应用场景
- 自组织映射(Self-Organizing Maps, SOM)
- 。。。。。。。
- 学习日记_20241110_聚类方法(K-Means) [学习日记_20241115_聚类方法(层次聚类)](https://blog.csdn.net/2301_81791289/article/details/143806707?spm=1001.2014.3001.5501) [学习日记_20241115_聚类方法(DBSCAN)](https://blog.csdn.net/2301_81791289/article/details/143808163?spm=1001.2014.3001.5501) [学习日记_20241117_聚类方法(高斯混合模型)](https://blog.csdn.net/2301_81791289/article/details/143832138?spm=1001.2014.3001.5501) [学习日记_20241123_聚类方法(高斯混合模型)续](https://blog.csdn.net/2301_81791289/article/details/143912711?spm=1001.2014.3001.5501) [学习日记_20241123_聚类方法(MeanShift)](https://blog.csdn.net/2301_81791289/article/details/144000164?spm=1001.2014.3001.5501) [学习日记_20241126_聚类方法(谱聚类Spectral Clustering)](https://blog.csdn.net/2301_81791289/article/details/144065686?spm=1001.2014.3001.5501) [学习日记_20241126_聚类方法(聚合聚类Agglomerative Clustering)](https://blog.csdn.net/2301_81791289/article/details/144066209?spm=1001.2014.3001.5501) [学习日记_20241126_聚类方法(Affinity Propagation)](https://blog.csdn.net/2301_81791289/article/details/144066602?spm=1001.2014.3001.5501)
聚类算法
聚类算法在各种领域中有广泛的应用,主要用于发现数据中的自然分组和模式。以下是一些常见的应用场景以及每种算法的优缺点:
经典应用场景
-
市场细分:根据消费者的行为和特征,将他们分成不同的群体,以便进行有针对性的营销。
-
图像分割: 将图像划分为多个区域或对象,以便进行进一步的分析或处理。
-
社交网络分析:识别社交网络中的社区结构。
-
文档分类:自动将文档分组到不同的主题或类别中。
-
异常检测识别数据中的异常点或异常行为。
-
基因表达分析:在生物信息学中,根据基因表达模式对基因进行聚类。
自组织映射(Self-Organizing Maps, SOM)
Self-Organizing Maps (SOM),也称为自组织映射或Kohonen网络,是一种无监督的机器学习方法,主要用于降维和聚类。以下是SOM聚类方法的优缺点:
优点:
- 降维:SOM能够将高维数据映射到低维空间(通常是二维),同时保持数据的拓扑结构,这使得数据可视化变得更加容易。
- 拓扑保持:SOM在映射过程中努力保持原始数据中相似性关系的拓扑结构,即相似的输入向量在映射后仍然接近。
- 无监督学习:SOM不需要预先标记的数据,可以自动发现数据中的结构和模式。
- 可解释性:SOM的输出是一个网格,每个网格节点代表一个聚类中心,这种结构使得聚类结果具有一定的可解释性。
- 灵活性:SOM可以适应不同形状和密度的聚类。
- 噪声鲁棒性:SOM对噪声数据有一定的鲁棒性,能够在一定程度上忽略小的数据扰动。
缺点:
- 参数敏感:SOM的性能对初始参数(如网格大小、学习率、邻域函数等)非常敏感,需要仔细选择和调整。
- 计算复杂度:SOM的训练过程可能比较耗时,特别是对于大型数据集和复杂的网格结构。
- 缺乏全局优化:SOM的训练过程是局部的,可能导致无法达到全局最优解。
- 边界效应:SOM的边界节点可能没有足够的邻居,这可能导致边界区域的映射不够准确。
- 难以确定最佳网格大小:选择合适的网格大小是一个挑战,过小可能无法捕捉数据的复杂性,过大则可能导致过度拟合。
- 对初始化敏感:SOM的最终结果可能受到初始权重随机化的影响,不同的初始化可能导致不同的聚类结果。
- 不适合非凸聚类:SOM在处理非凸形状的聚类时可能表现不佳,因为其本质上是基于距离的聚类方法。
总的来说,SOM是一种强大的工具,适用于多种数据分析和聚类任务,但也需要仔细考虑其参数设置和适用场景。在实际应用中,可能需要结合其他方法或技术来克服其局限性。
简单实例(函数库实现)
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from minisom import MiniSom
# 生成示例数据
n_samples = 500
n_centers = 3
X, _ = make_blobs(n_samples=n_samples, centers=n_centers, cluster_std=0.7, random_state=42)
# 自组织映射的参数
som_size = 7 # SOM的网格大小
som = MiniSom(som_size, som_size, X.shape[1], sigma=1.0, learning_rate=0.9)
# 初始化并训练SOM
som.random_weights_init(X)
som.train_random(X, num_iteration=100)
# 获取SOM的输出
win_map = som.win_map(X)
labels = np.zeros(X.shape[0])
# 将每个数据点分配给最近的SOM节点
for i in range(som_size):
for j in range(som_size):
if (i, j) in win_map:
for x in win_map[(i, j)]:
# 使用SOM的网格位置来标记
index = np.argmin(np.linalg.norm(X - x, axis=1))
labels[index] = (i * som_size + j)
# 可视化结果
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', marker='o', edgecolor='k', s=50)
plt.title('Self-Organizing Map Clustering Result')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.grid(True)
plt.show()
数学表达
自组织映射(Self-Organizing Maps, SOM)是一种基于神经网络的无监督学习算法,旨在通过无监督的方式对高维数据进行降维和聚类。其核心思想是通过竞争学习使得相似的数据点在低维空间中尽可能靠近。下面我们将结合数学公式详细讲解SOM的工作原理。