文章目录
- 1.读取数据
- 2.数据预处理
- 删除(提取)评分为0的数据记录
- 空值填补0
- 去重
- 3.数据标准化
- 3.1 [0,1]标准化 --- 将数据压缩至0~1之间
- 3.2 Z-Score 标准化 --- 基于数据均值和方差的标准化方法。
1.读取数据
data = pd.read_csv("G:\Projects\pycharmeProject\大数据比赛\data\mysql.csv")
print(data.shape)
2.数据预处理
删除(提取)评分为0的数据记录
data_clean = data.loc[~data['评分'].isnull()]
空值填补0
data_fin_clean = data_clean.fillna(0)
去重
data_fin_clean_dul = data_fin_clean.drop_duplicates()
3.数据标准化
data_select = data_fin_clean_dul['评分']
3.1 [0,1]标准化 — 将数据压缩至0~1之间
def MaxMinNormalization(data):
data = (data - np.min(data))/(np.max(data) - np.min(data))
return data
data_mmn = MaxMinNormalization(data_select)
3.2 Z-Score 标准化 — 基于数据均值和方差的标准化方法。
- 标准化后数据的均值是0,方差为1的正态分布
- 这种方法要求原始数据的分布可以近似为高斯分布,否则效果会很差
def StanderNormalization(data):
data = (data - np.mean(data))/np.std(data)
return data
data_sn = StanderNormalization(data_select)