0
点赞
收藏
分享

微信扫一扫

scikit-learn学习笔记(一)内置数据集的使用


1 . sklearn是重要的python机器学习库。其实现了大多数的机器学习算法。其内置数据集在​​datasets​​​模块中,通过​​load_*​​​方法加载本地小数据集,或者通过​​fetch_*​​​下载大数据集(​​print(datasets.get_data_home())#可以看出下载到了用户目录下的scikit_learn_data文件夹​​)。

如本人安装anaconda目录为​​D:\Anaconda3​​,其文件存储如下:

scikit-learn学习笔记(一)内置数据集的使用_函数定义


scikit-learn学习笔记(一)内置数据集的使用_函数定义_02


如下为pycharm的帮助提示:

scikit-learn学习笔记(一)内置数据集的使用_数据集_03

2 .

​load_*​​​函数定义在​​/sklearn/datasets/base.py​​​中,该函数返回​​Bunch​​​类型,使用上和字典类似。更多详情可以参阅源码(pycharm中在调用处​​ctrl+鼠标左键​​)。

scikit-learn学习笔记(一)内置数据集的使用_函数定义_04


3 . 本节代码:

from sklearn import datasets
import numpy as np
np.set_printoptions(threshold=np.inf)#避免print过多成省略号

print(datasets.get_data_home())#下载数据存放目录

boston=datasets.load_boston()
# print(boston.DESCR)
# 输出与`boston_house_prices.rst`内容相同
print(boston.feature_names)#属性名(不含标记名)

x,y=boston.data,boston.target#分别为属性值和标记

# print(boston.data.shape)

# print(y)
# print(len(y))


举报

相关推荐

0 条评论