scikit-learn学习笔记（一）内置数据集的使用-CFANZ编程社区

scikit-learn学习笔记（一）内置数据集的使用

1 . sklearn是重要的python机器学习库。其实现了大多数的机器学习算法。其内置数据集在datasets模块中，通过load_*方法加载本地小数据集，或者通过fetch_*下载大数据集（print(datasets.get_data_home())#可以看出下载到了用户目录下的scikit_learn_data文件夹）。

如本人安装anaconda目录为D:\Anaconda3,其文件存储如下：

scikit-learn学习笔记（一）内置数据集的使用_函数定义

scikit-learn学习笔记（一）内置数据集的使用_函数定义_02

如下为pycharm的帮助提示：

scikit-learn学习笔记（一）内置数据集的使用_数据集_03

2 .

load_*函数定义在/sklearn/datasets/base.py中，该函数返回Bunch类型，使用上和字典类似。更多详情可以参阅源码（pycharm中在调用处ctrl+鼠标左键）。

scikit-learn学习笔记（一）内置数据集的使用_函数定义_04

3 . 本节代码：

from sklearn import datasets
import numpy as np
np.set_printoptions(threshold=np.inf)#避免print过多成省略号

print(datasets.get_data_home())#下载数据存放目录

boston=datasets.load_boston()
# print(boston.DESCR)
# 输出与`boston_house_prices.rst`内容相同
print(boston.feature_names)#属性名（不含标记名）

x,y=boston.data,boston.target#分别为属性值和标记

# print(boston.data.shape)

# print(y)
# print(len(y))

0 条评论