0
点赞
收藏
分享

微信扫一扫

【跟李沐学AI学习笔记】数据预处理

落拓尘嚣 2022-02-02 阅读 29

os.makedirs(name,mode=0o777,exist_ok=False)的作用是创建多层目录。name是想创建的目录名,mode是要为目录设置的权限数字模式,默认的模式为0o777,exist_ok为是否在目录存在时触发异常,exist_ok为True时在目标目录已存在的情况下不会触发FileExistsError异常。

os.path.join是把目录和文件名合并成一个路径,如果不存在以“/”开始的参数,则函数会自动加上。存在以“/”开始的参数,从最后一个以“/”开头的参数开始拼接,之前的参数全部丢弃。

with open() as f的用法:默认模式为‘r’,为只读模式。‘w’为打开一个文件只用于写入,如果该文件已存在则将其覆盖,如果该文件不存在,创建新文件。文件名参数不要打引号。

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

  要从创建的csv文件中加载原始数据集,导入pandas包并调用read_csv函数。

# 如果没有安装pandas,只需取消对以下行的注释来安装pandas
# !pip install pandas
import pandas as pd

data = pd.read_csv(data_file)
print(data)

  “NAN”项代表缺失值。处理缺失数据的典型方法包括插值法和删除法,其中插值法用一个替代值弥补缺失值,删除法则直接忽略缺失值。这里使用插值法。

  通过位置索引iloc,将data分成inputs和outputs,其中前者为data的前两列,后者为data最后一列。对于inputs中缺少的数值,用同一列的均值替换“NAN”项。这里的2替换成-1也可以。通过.fillna()填充空值。.mean()求平均值,inputs只有第一列可求平均值,所以不写。

  对于inputs中的类别值或离散值,将“NAN”视为一个类别。由于“巷子类型”(“Alley”)列只接受两种类型的类别值"Pave"和“NaN",pandas可以自动将此列转换为两列”Alley_Pave"和“Alley_nan"。巷子类型为"Pave"的行会将”Alley_Pave"的值设置为1,“Alley_nan”的值设置为0。缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。用.get_dummies()来生成两列one-hot,保留分类变量中的缺失值,将其单独作为一列,加dummy_na= True,处理过后就会分为两列,由值0,1来表示类型。

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)

inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

  现在inputs和outputs中的所有条目都是数值类型,它们可以转换为张量格式。

import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(X, y)

举报

相关推荐

0 条评论