0
点赞
收藏
分享

微信扫一扫

【数据分析与预处理】 ---- 数据标准化


文章目录

  • ​​1.读取数据​​
  • ​​2.数据预处理​​
  • ​​删除(提取)评分为0的数据记录​​
  • ​​空值填补0​​
  • ​​去重​​
  • ​​3.数据标准化​​
  • ​​3.1 [0,1]标准化 --- 将数据压缩至0~1之间​​
  • ​​3.2 Z-Score 标准化 --- 基于数据均值和方差的标准化方法。​​

1.读取数据

data = pd.read_csv("G:\Projects\pycharmeProject\大数据比赛\data\mysql.csv")
print(data.shape)

2.数据预处理

删除(提取)评分为0的数据记录

data_clean = data.loc[~data['评分'].isnull()]

空值填补0

data_fin_clean = data_clean.fillna(0)

去重

data_fin_clean_dul = data_fin_clean.drop_duplicates()

3.数据标准化

data_select = data_fin_clean_dul['评分']

3.1 [0,1]标准化 — 将数据压缩至0~1之间

def MaxMinNormalization(data):
data = (data - np.min(data))/(np.max(data) - np.min(data))
return data
data_mmn = MaxMinNormalization(data_select)

【数据分析与预处理】 ---- 数据标准化_读取数据

3.2 Z-Score 标准化 — 基于数据均值和方差的标准化方法。

  • 标准化后数据的均值是0,方差为1的正态分布
  • 这种方法要求原始数据的分布可以近似为高斯分布,否则效果会很差

def StanderNormalization(data):
data = (data - np.mean(data))/np.std(data)
return data
data_sn = StanderNormalization(data_select)

【数据分析与预处理】 ---- 数据标准化_python_02


举报

相关推荐

0 条评论