基于Python的预测商品销售数据-CFANZ编程社区

完整资料进入【数字空间】查看——baidu搜索"writebug"

实验目的

通过使用一个具有挑战性的时间序列数据集，该数据集由每日销售数据，由俄罗斯最大的软件公司之一 1C 公司提供。

数据集中提供了 2013 年 1 月到 2015 年 10 月每日每个店铺中的商品历史销售数据。任务是为测试集预测每家商店销售的产品总量。请注意，商店和产品列表每个月都会略有变化。创建可以处理此类情况的强大模型是挑战的一部分。

要求：预测下个月（也就是 2015 年 11 月）一整个月每个商店中对应产品的的总销售额。

数据集分析

所有的数据都存储在/data 文件夹下，文件夹中共有六个文件，分别是

sales_train.csv- 训练数据集，包含了从 2013 年 1 月到 2015 年 10 月的销售历史数据。

test.csv- 测试数据集，该任务需要用训练集中的数据来预测 2015 年 11 月的销售数据。

sample_submission.csv- 一个提交样例。

items.csv- 关于商品的补充信息。

item_categories.csv - 关于商品类别的补充信息。

shops.csv- 关于店铺的补充信息。

文件中会包含以下条目：

ID-在测试集中表示（店铺，商品）的 id。

shop_id- 店铺的唯一标识符。

item_id-商品的唯一标识符。

item_category_id-商品类别的唯一标识符。

item_cnt_day- 商品的销售数量，需要预测商品的月销量。

item_price- 商品的现价。

date-以 dd/mm/yyyy 为格式的日期

date_block_num- 按照顺序的月份简写，期中 2013 年 1 月为 0，2013 年 2 月为 1，....，2015 年 10 月为 33。

item_name- 商品的名称。

shop_name- 店铺的名称。

item_category_name- 类别的名称。

在了解了各个条目的含义之后，我们需要对数据进行分析，来确定如何处理和使用这些数据，根据题目中对数据的介绍，我们需要训练的文件主要是 sales_train.csv，该 CSV 文件中包含了日期、月份、商店序号、商品序号、商品价格和每日的销售数量信息。

既然题目中要求我们预测 2015 年 11 月的销售数据，我们可以先将所有的训练数据按照店铺进行分类，在针对每个店铺按照不同商品进行分割，最后根据时间顺序训练出相关的预测模型。模型的预测可以按照月份进行预测，也可以根据每一天的预测数据进行累加。

因此整个实验的具体步骤为：

读取数据

按照商店序号对数据进行分割

按照商品序号对每个店铺中的商品进行分割

针对每个商品的销售数据进行拟合

预测每个商品的销售量

按照要求进行输出

实验内容

整个实验主要分为数据处理（数据分析、数据清洗）和模型搭建两个部分。

其中数据处理部分主要用于了解各类数据的分布情况，在通过对数据有一定的掌握之后，通过对数据集的调整操作来获取适合用于训练的训练数据。

模型搭建部分则需要根据数据的特点来选择适合的训练模型，并且对参数进行适当的调整，以获取最好的实验结果。

基于Python的预测商品销售数据_标识符

基于Python的预测商品销售数据_标识符_02

基于Python的预测商品销售数据_数据集_03

基于Python的预测商品销售数据_数据集_04

基于Python的预测商品销售数据_数据集_05

基于Python的预测商品销售数据_数据_06