完整资料进入【数字空间】查看——baidu搜索"writebug"
实验目的
通过使用一个具有挑战性的时间序列数据集,该数据集由每日销售数据,由俄罗斯最大的软件公司之一 1C 公司提供。
数据集中提供了 2013 年 1 月到 2015 年 10 月每日每个店铺中的商品历史销售数据。任务是为测试集预测每家商店销售的产品总量。请注意,商店和产品列表每个月都会略有变化。创建可以处理此类情况的强大模型是挑战的一部分。
要求:预测下个月(也就是 2015 年 11 月)一整个月每个商店中对应产品的的总销售额。
数据集分析
所有的数据都存储在/data 文件夹下,文件夹中共有六个文件,分别是
sales_train.csv- 训练数据集,包含了从 2013 年 1 月到 2015 年 10 月的销售历史数据。
test.csv- 测试数据集,该任务需要用训练集中的数据来预测 2015 年 11 月的销售数据。
sample_submission.csv- 一个提交样例。
items.csv- 关于商品的补充信息。
item_categories.csv - 关于商品类别的补充信息。
shops.csv- 关于店铺的补充信息。
文件中会包含以下条目:
ID-在测试集中表示(店铺,商品)的 id。
shop_id- 店铺的唯一标识符。
item_id-商品的唯一标识符。
item_category_id-商品类别的唯一标识符。
item_cnt_day- 商品的销售数量,需要预测商品的月销量。
item_price- 商品的现价。
date-以 dd/mm/yyyy 为格式的日期
date_block_num- 按照顺序的月份简写,期中 2013 年 1 月为 0,2013 年 2 月为 1,....,2015 年 10 月为 33。
item_name- 商品的名称。
shop_name- 店铺的名称。
item_category_name- 类别的名称。
在了解了各个条目的含义之后,我们需要对数据进行分析,来确定如何处理和使用这些数据,根据题目中对数据的介绍,我们需要训练的文件主要是 sales_train.csv,该 CSV 文件中包含了日期、月份、商店序号、商品序号、商品价格和每日的销售数量信息。
既然题目中要求我们预测 2015 年 11 月的销售数据,我们可以先将所有的训练数据按照店铺进行分类,在针对每个店铺按照不同商品进行分割,最后根据时间顺序训练出相关的预测模型。模型的预测可以按照月份进行预测,也可以根据每一天的预测数据进行累加。
因此整个实验的具体步骤为:
读取数据
按照商店序号对数据进行分割
按照商品序号对每个店铺中的商品进行分割
针对每个商品的销售数据进行拟合
预测每个商品的销售量
按照要求进行输出
实验内容
整个实验主要分为数据处理(数据分析、数据清洗)和模型搭建两个部分。
其中数据处理部分主要用于了解各类数据的分布情况,在通过对数据有一定的掌握之后,通过对数据集的调整操作来获取适合用于训练的训练数据。
模型搭建部分则需要根据数据的特点来选择适合的训练模型,并且对参数进行适当的调整,以获取最好的实验结果。