pandas.get_dummies与sklearn.preprocessing.OneHotEncoder-CFANZ编程社区

pandas.get_dummies、sklearn.preprocessing.OneHotEncoder.fit_transform 和 sklearn.preprocessing.OneHotEncoder 都用于对分类变量进行独热编码，但它们在实现和使用上有一些区别。

pandas.get_dummies:

解释: pandas.get_dummies是pandas库中的一个函数，用于将分类变量转化为虚拟变量（也叫哑变量）。

参数解释:

data: 要进行独热编码的DataFrame或Series。
columns (可选): 指定需要进行独热编码的列名，如果不指定，将会对所有分类变量进行编码。
prefix (可选): 生成的虚拟变量的列名前缀。

用法:

import pandas as pd

# 创建一个包含分类变量的DataFrame
data = pd.DataFrame({'category': ['A', 'B', 'A', 'C']})

# 对分类变量进行独热编码
encoded_data = pd.get_dummies(data, columns=['category'], prefix=['cat'])

print(encoded_data)

sklearn.preprocessing.OneHotEncoder:

解释: sklearn.preprocessing.OneHotEncoder是scikit-learn库中的一个类，用于将分类变量转化为独热编码。

参数解释:

sparse (可选): 是否生成稀疏矩阵（默认为True，通常在数据集很大时使用稀疏矩阵以节省内存）。
drop (可选): 是否在编码后删除原始分类变量的列，默认为None，表示不删除。

用法:

from sklearn.preprocessing import OneHotEncoder
import numpy as np

# 创建一个包含分类变量的二维数组
data = np.array([['A'], ['B'], ['A'], ['C']])

# 初始化OneHotEncoder
encoder = OneHotEncoder()

# 对分类变量进行独热编码
encoded_data = encoder.fit_transform(data)

print(encoded_data.toarray())

注意：