1.导入python库
2.载入数据
该数据集收录了⼀96赛季~2016赛季,科⼀整个职业⼀涯的⼀赛记录,共有30697条数据。每⼀条数据都是⼀次出⼀记录,其中包括动作类型,投篮类型,投射距离,投射位置,是否命中等25个特征。在该数据集中我们将以是否命中篮筐为标签值来进⼀分析,带有标签值的数据共25697条。我们将以这25697条数据作为训练数据进⼀建模,来对不带标签的5000条数据进⼀预测。
3.标签缺失值处理
4.查看生涯出手位置(特征样本点分布观察)
发现两个特征表达的投篮位置都一样,所以接下来可以任意一个。
4.1转为极坐标
5.数据预处理
5.1统计比赛时间(秒)
5.2查看样本类别
5.3数据类型转换
5.4特征相关性(ρ和投篮距离,可去掉一个)
5.5特征相关性(投篮区域统计)
5.6特征相关性(投篮区域位置)
5.7丢弃无用数据
5.8特征变量转化
5.9拼接one-hot编码的新特征
6.搭建模型
6.1定义训练集和测试集
6.2定义模型(寻找最优的n_estimators)
6.2.1 Kfold举例
6.2.2寻找最优的n_estimators
6.2.3寻找最优的max_depth
7.可视化参数结果
8.预测