1.AutoTS基础知识
AutoTS 是 Python 的时间序列包,旨在快速部署大规模的高精度预测。
https://winedarksea.github.io/AutoTS/build/html/source/tutorial.html#id5
有几十个预测模型中可用sklearn的风格 .fit()和.predict()。这些包括朴素、统计、机器学习和深度学习模型。此外,有超过30的时间序列的特定变换中可用sklearn的风格.fit(),.transform()和.inverse_transform()。所有这些都直接在 Pandas Dataframes 上运行,无需转换为专有对象。
所有模型都支持预测多变量(多个时间序列)输出,还支持概率(上限/下限)预测。大多数模型可以轻松扩展到数万甚至数十万个输入序列。许多模型还支持传入用户定义的外生回归器。这些模型都是为集成到 AutoML 特征搜索中而设计的,该搜索通过遗传算法自动为给定数据集找到最佳模型、预处理和集成。
指标和交叉验证选项的组合,应用子集和加权的能力,回归器生成工具,模拟预测模式,实时数据集,模板导入和导出,绘图,以及数据塑造参数的集合,完善了可用的特征集。
AutoTS 是一个自动化的时间序列预测库,可以使用简单的代码训练多个时间序列模型,此库的一些最佳功能包括:
- 利用遗传规划优化方法寻找最优时间序列预测模型。
- 提供置信区间预测值的下限和上限。
- 它训练各种各样的模型,如统计的,机器学习以及深度学习模型
- 它还可以执行最佳模型的自动集成
- 它还可以通过学习最优NaN插补和异常值去除来处理混乱的数据
- 它可以运行单变量和多变量时间序列
- 所有模型都支持预测多变量(多个时间序列)输出。
(0)值得明确的是**
AutoTS模块每次运行将自动运行拟合数百个模型,可以在输出窗格中看到运行的各种模型。然后AutoTS模块会自动寻找拟合的最好的模型、预处理方法、以及集成模型的策略。
(1)安装
pip install autots
如果安装失败,请查看安装文档。
(2)基本使用
AutoTS 的输入数据预计将采用长格式或宽格式:
- 宽格式是一个pandas.DataFrame。 pandas.DatetimeIndex 和每一列都是一个不同的系列。
- 长格式有三列:
- 日期(最好已经在pd中。DateTime格式)
- Series ID。对于单个时间序列,series_id可以= None
- 值
- 对于长数据,每个字段的列名都作为date_col、id_col和value_col传递给.fit()。宽数据不需要参数。
低级函数仅为宽格式数据设计。低级的API,特别是scikit-learn风格的时间序列转换器,也可以独立于AutoML框架使用。
(3)快速上手【长格式】
模型参数解释:
-forecast_length (int):评估预测的周期数(长度)。可以稍后在.predict()中重写。
- frequency (str): 'infer’或一个特定的pandas datetime偏移量。可用于强制汇总数据(即每天输入,但频率’M’将汇总到每月)。
- ensemble (str): None或list或逗号分隔的字符串,包含: 'auto', 'simple', 'distance', 'horizontal', 'horizontal-min', 'horizontal-max', "mosaic", "subsample"
- random_seed (int):随机种子允许(稍微)更一致的结果。
- max_generations (int):要运行的遗传算法迭代的次数。它被称为“max”,因为总有一天会有一个自动提前停止的选项,但就目前而言,这只是运行的确切的代数。
- num_validations (int):执行交叉验证的次数。0用于训练/测试最佳分叉数。
- prediction_interval(浮动):0-1,不确定范围的上和下预测。调整范围,但很少匹配实际遏制。
- no_negatives (bool):如果为True,所有负面预测将四舍五入为0。
- metric_weighting (dict):分配给度量的权重,影响如何生成排名分数。
- drop_most_recent (int):删除n个最近的数据点的选项。例如,对于包含当前(未完成的)月份的月度销售数据是有用的。
- model_list (list):要使用的模型对象的STR别名或名称列表。
- Validation_method (str): ‘even’、'backward ‘或’seasonal n’,其中n是季节性的整数。
- ’backwards’ 最近的训练和较短的训练更好
- ’even’ 为了获得更一致的数据,将数据分割成相同大小的块,这是一种富有诗意但不那么有效的策略
- 'seasonal n’ 例如,'季节性364’将测试紧随训练数据之后的forecast_length的前一年的所有数据。
- ’similarity’ 自动查找与将用于预测的最新数据最相似的数据部分
- ’custom’ ,如果使用.fit(),则需要传递validation_indexes—一个pd.DatetimeIndex的,每个的尾部用作测试.
AutoTS()的相关参数、返回值、方法:
Args:
forecast_length (int): number of periods over which to evaluate forecast. Can be overriden later in .predict().
frequency (str): 'infer' or a specific pandas datetime offset. Can be used to force rollup of data (ie daily input, but frequency 'M' will rollup to monthly).
prediction_interval (float): 0-1, uncertainty range for upper and lower forecasts. Adjust range, but rarely matches actual containment.
max_generations (int): number of genetic algorithms generations to run.
More runs = longer runtime, generally better accuracy.
It's called `max` because someday there will be an auto early stopping option, but for now this is just the exact number of generations to run.
no_negatives (bool): if True, all negative predictions are rounded up to 0.
constraint (float): when not None, use this value * data st dev above max or below min for constraining forecast values. Applied to point forecast only, not upper/lower forecasts.
ensemble (str): None or list or comma-separated string containing:
'auto', 'simple', 'distance', 'horizontal', 'horizontal-min', 'horizontal-max', "mosaic", "subsample"
initial_template (str): 'Random' - randomly generates starting template, 'General' uses template included in package, 'General+Random' - both of previous. Also can be overriden with self.import_template()
random_seed (int): random seed allows (slightly) more consistent results.
holiday_country (str): passed through to Holidays package for some models.
subset (int): maximum number of series to evaluate at once. Useful to speed evaluation when many series are input.
takes a new subset of columns on each validation, unless mosaic ensembling, in which case columns are the same in each validation
aggfunc (str): if data is to be rolled up to a higher frequency (daily -> monthly) or duplicate timestamps are included. Default 'first' removes duplicates, for rollup try 'mean' or np.sum.
Beware numeric aggregations like 'mean' will not work with non-numeric inputs.
na_tolerance (float): 0 to 1. Series are dropped if they have more than this percent NaN. 0.95 here would allow series containing up to 95% NaN values.
metric_weighting (dict): weights to assign to metrics, effecting how the ranking score is generated.
drop_most_recent (int): option to drop n most recent data points. Useful, say, for monthly sales data where the current (unfinished) month is included.
occurs after any aggregration is applied, so will be whatever is specified by frequency, will drop n frequencies
drop_data_older_than_periods (int): take only the n most recent timestamps
model_list (list): str alias or list of names of model objects to use
transformer_list (list): list of transformers to use, or dict of transformer:probability. Note this does not apply to initial templates.
can accept string aliases: "all", "fast", "superfast"
transformer_max_depth (int): maximum number of sequential transformers to generate for new Random Transformers. Fewer will be faster.
models_mode (str): option to adjust parameter options for newly generated models. Currently includes:
'default', 'deep' (searches more params, likely slower), and 'regressor' (forces 'User' regressor mode in regressor capable models)
num_validations (int): number of cross validations to perform. 0 for just train/test on best split.
Possible confusion: num_validations is the number of validations to perform *after* the first eval segment, so totally eval/validations will be this + 1.
models_to_validate (int): top n models to pass through to cross validation. Or float in 0 to 1 as % of tried.
0.99 is forced to 100% validation. 1 evaluates just 1 model.
If horizontal or mosaic ensemble, then additional min per_series models above the number here are added to validation.
max_per_model_class (int): of the models_to_validate what is the maximum to pass from any one model class/family.
validation_method (str): 'even', 'backwards', or 'seasonal n' where n is an integer of seasonal
'backwards' is better for recency and for shorter training sets
'even' splits the data into equally-sized slices best for more consistent data, a poetic but less effective strategy than others here
'seasonal n' for example 'seasonal 364' would test all data on each previous year of the forecast_length that would immediately follow the training data.
'similarity' automatically finds the data sections most similar to the most recent data that will be used for prediction
'custom' - if used, .fit() needs validation_indexes passed - a list of pd.DatetimeIndex's, tail of each is used as test
min_allowed_train_percent (float): percent of forecast length to allow as min training, else raises error.
0.5 with a forecast length of 10 would mean 5 training points are mandated, for a total of 15 points.
Useful in (unrecommended) cases where forecast_length > training length.
remove_leading_zeroes (bool): replace leading zeroes with NaN. Useful in data where initial zeroes mean data collection hasn't started yet.
prefill_na (str): value to input to fill all NaNs with. Leaving as None and allowing model interpolation is recommended.
None, 0, 'mean', or 'median'. 0 may be useful in for examples sales cases where all NaN can be assumed equal to zero.
introduce_na (bool): whether to force last values in one training validation to be NaN. Helps make more robust models.
defaults to None, which introduces NaN in last rows of validations if any NaN in tail of training data. Will not introduce NaN to all series if subset is used.
if True, will also randomly change 20% of all rows to NaN in the validations
model_interrupt (bool): if False, KeyboardInterrupts quit entire program.
if True, KeyboardInterrupts attempt to only quit current model.
if True, recommend use in conjunction with `verbose` > 0 and `result_file` in the event of accidental complete termination.
if "end_generation", as True and also ends entire generation of run. Note skipped models will not be tried again.
verbose (int): setting to 0 or lower should reduce most output. Higher numbers give more output.
n_jobs (int): Number of cores available to pass to parallel processing. A joblib context manager can be used instead (pass None in this case). Also 'auto'.
Attributes:
best_model (pd.DataFrame): DataFrame containing template for the best ranked model
best_model_name (str): model name
best_model_params (dict): model params
best_model_transformation_params (dict): transformation parameters
best_model_ensemble (int): Ensemble type int id
regression_check (bool): If True, the best_model uses an input 'User' future_regressor
df_wide_numeric (pd.DataFrame): dataframe containing shaped final data
initial_results.model_results (object): contains a collection of result metrics
score_per_series (pd.DataFrame): generated score of metrics given per input series, if horizontal ensembles
Methods:
fit, predict
export_template, import_template, import_results
results, failure_rate
horizontal_to_df, mosaic_to_df
plot_horizontal, plot_horizontal_transformers, plot_generation_loss, plot_backforecast
"""
# also: _hourly, _daily, _weekly, or _yearly
from autots.datasets import load_monthly
# 使用长格式的数据
df_long = load_monthly(long=True)
from autots import AutoTS
# 模型实例化
model = AutoTS(
forecast_length=3,
frequency='infer',
ensemble='simple',
max_generations=5,
num_validations=2,
)
# 训练模型
model = model.fit(df_long, date_col='datetime', value_col='value', id_col='series_id')
# Print the name of the best model
print(model)
**df_long【这里是长格式】**的内容如下:

(4)一个简单案例 【宽格式】
superfast(简单的幼稚模型)和 fast(更复杂但更快的模型)。
注释在代码中
# also load: _hourly, _monthly, _weekly, _yearly, or _live_daily
from autots import AutoTS, load_daily
# 样本数据集可用于长格式导入形状或宽格式导入形状
long = False
# 这里导入宽格式
df = load_daily(long=long)
# 实例化一个模型
model = AutoTS(
forecast_length=21,
frequency='infer',
prediction_interval=0.9,
ensemble=None,
model_list="fast", # "superfast", "default", "fast_parallel"
transformer_list="fast", # "superfast",
drop_most_recent=1,
max_generations=4,
num_validations=2,
validation_method="backwards"
)
# 模型拟合训练,这个过程会自动找到最佳模型、预处理和集成
model = model.fit(
df,
date_col='datetime' if long else None,
value_col='value' if long else None,
id_col='series_id' if long else None,
)
prediction = model.predict()
# plot a sample
prediction.plot(model.df_wide_numeric,
series=model.df_wide_numeric.columns[0],
start_date="2019-01-01")
# 打印出最好的模型的细节
print(model)
# 点预测dataframe
forecasts_df = prediction.forecast
# 上、下限预测
forecasts_up, forecasts_low = prediction.upper_forecast, prediction.lower_forecast
# 所有试验模型结果的准确性
model_results = model.results()
# 交叉验证的结果
validation_results = model.results("validation")

df【这里是宽格式】 的内容如下:

2.数据导入
pandas 对于这个库 有两种 被接受的 shape和风格。
- 第一种是长数据,比如聚合的sales-transaction表中的长数据,该表包含已标识的三列: .fit() 中有:date_col {pd.Datetime}, value_col{感兴趣的数字或类别数据},id_col {id字符串,如果提供多个系列}。
- 或者,数据可以采用宽格式,其中索引为pd.DatetimeIndex,每个列都是一个不同的数据系列。
如果使用水平样式集合,series_ids或者列名 将被强制转换为字符串。
3.流程的参数设置技巧
(1)提高迭代次数
提高准确性的最简单方法是增加代数max_generations=15。每一代都尝试新模型,花费更多时间但提高了准确性。然而,遗传算法的本质意味着每一代都没有一致的改进,大量的代通常只会导致最小的性能提升。
(2)设置ensemble的值
可能提高准确性的方法是设置ensemble='all'. Ensemble 参数需要一个字符串,例如可以是'simple,dist', 或'horizontal'. 由于这意味着存储每个模型的更多细节,这需要更多的时间和内存。
(3)设置阈值
当数据预计想始终为 0 或更大(例如单位销售额)时,一个方便的参数是设置no_negatives=True. 这会强制预测值大于或等于 0。
类似的函数是constraint=2.0。这样做是为了防止预测离开训练数据设定的历史界限。
(4)删除不完整的最近的粒度数据
drop_most_recent=1指定要删除的最近期间的数量。这对于月度数据很方便,因为最近一个月通常是不完整的。【比如一个月30天,但是求月均值时只有13天,这时候求的均值就有问题,所以可以删掉这13天再求均或者求均再去掉最后这个月】
(5)删除最旧的数据
drop_data_older_than_periods提供类似的功能,但会丢弃最旧的数据以加快大型数据集的处理速度。
(6)子集(测试集)大小
在处理许多时间序列时,利用subset=100. 子集指定用于测试模型的时间序列的整数,并且可用于许多相关的时间序列(1000 个客户的销售额)。通常,在 100 个相关时间序列上的最佳模型非常接近在数千个(或更多)序列上测试过的模型。
测试集选大了,训练集变少。
 测试集选小了,无法体现模型的评估情况。
子集利用权重,权重更高的系列更有可能被选中。加权与多个时间序列一起使用,以告诉评估者哪个序列最重要。假定系列权重都等于 1,只有在需要 1 以外的值时才需要传入值。注意权重,更大的权重 = 更重要。
(7)缺失值处理(一般在建模前直接另外处理了)
可能最有可能引起麻烦的是有很多 NaN/缺失数据。尤其是最新可用数据中的大量缺失数据。使用适当的交叉验证(backwards特别是如果 NaN 在较旧的数据中很常见,但在最近的数据中不常见)会有所帮助。删除大部分缺失或使用prefill_na=0(或其他值)的系列也可以提供帮助。
4.注意事项
https://winedarksea.github.io/AutoTS/build/html/source/tutorial.html#id5
有一些基本的事情需要注意,这些事情通常会导致糟糕的结果:
- **最新数据中的错误数据(突然下降或缺失值)是导致错误预测的最常见原因。**由于许多模型使用最新数据作为起点,最新数据点中的错误可能会对预测产生过大的影响。
- **具有代表性的交叉验证样本。**模型是根据交叉验证的性能选择的。如果验证不能准确地代表系列,则可能会选择较差的模型。选择一个好的方法和尽可能多的验证。
5.验证和交叉验证**
交叉验证有助于确保最优模型在时间序列的动态范围内是稳定的。由于需要防止未来数据点的数据泄漏,交叉验证在时间序列数据中可能会很棘手。
首先,所有模型最初都在最新的数据上进行验证。这样做是因为最近的数据通常最接近预测的未来,对模型的促进效果好。
对于非常小的数据集,可能没有足够的数据进行交叉验证,在这种情况下num_validations可以设置为 0。这也可以加快快速测试。
一般来说,最安全的方法是进行尽可能多的验证,只要有足够的数据即可。
对于时间序列的一些可用的交叉验证方法:
validation_method (str): 'even', 'backwards', or 'seasonal n' where n is an integer of seasonal
'backwards' 最近的训练和较短的训练更好。【就是最末尾的时间段】
'even' 为了获得更一致的数据,将数据分割成相同大小的块,这是一种富有诗意但不那么有效的策略
'seasonal n' 例如,'季节性364'将测试紧随训练数据之后的forecast_length的前一年的所有数据。
'similarity' 自动查找与将用于预测的最新数据最相似的数据部分
'custom' - 如果使用.fit(),则需要传递validation_indexes—一个pd.DatetimeIndex的,每个的尾部用作测试
Backwards、Even和Seasonal 验证都对最近的数据分割进行了初步评估。自定义对所提供的列表中的第一个索引执行初始评估,而相似度首先作用于最近的距离段。
从初始验证到交叉验证,只有模型的一个子集。模型的数量被设置为models_to_validate=10。如果提供了0到1的浮点数,则将其视为要选择的模型的百分比。如果怀疑最近的数据不能很好地代表整个数据,那么增加这个参数将是一个好主意。然而,由于许多模型参数的相似性,将该值增加到0.35(即35%)以上不太可能有很大的好处。
在处理NaN值的同时,如果任何序列在任何生成的序列/测试拆分中都有大量NaN值,那么模型选择就会受到影响。最常见的情况是,某些系列具有很长的历史,而同一数据集中的其他系列只有最近的数据。在这些情况下,避免交叉验证,使用其他验证方法之一。
(1)Backwards cross validation【向后交叉验证】
向后交叉验证是最安全的方法,从最近的数据向后进行验证。首先取最近的forecast_length样本,然后取下一个最近的forecast_length样本,依此类推。这使得它更适合于较小或快速变化的数据集。
(2)Even cross validation【等分、均匀】
even交叉验证也会将数据切成相等的块。例如,num_validations=3将把数据分成相等的、连续的三分之一(减去原始验证样本)。最后的验证结果将包括四个部分,三个交叉验证样品的结果以及原始验证样品的结果。
(3)Seasonal validation【季节性】
季节性验证以‘季节性n’的形式提供,即‘季节性364’。这是向后验证的一种变体,如果提供适当的时间,它将提供所有验证方法的最佳性能。它像往常一样对最近的数据进行训练,那么验证是n个周期,从预测的日期时间返回。例如,对于每日数据、提前一个月的预测和n=364,第一次测试可能在2021年5月,在2020年6月和2019年6月生效,然后是2021年6月的最终预测。
(4)Similarity automatically【相似性】
相似度自动找到与将用于预测的最新数据最相似的数据部分。这是最好的通用选择,但目前可能对混乱的数据很敏感。
(5)Custom validations【自定义】
定义允许任何类型的验证。如果使用.fit(),则需要传递validation_indexes—一个pd.DatetimeIndex的,每个的forecast_length的尾部被用作测试(它的长度应该与num_validations + 1相同)。
6.模型列表
默认情况下,尝试了大多数可用的模型。对于一个更有限的模型子集,可以传入一个自定义列表,或者更简单的,一个字符串,'probabilistic', 'multivariate', 'fast', 'superfast',或'all'之一。
在大型多元序列上,DynamicFactor 和 VARMAX 可能非常缓慢。
7.模型导入/导出 (部署版本【推荐】)
通过将选择的参数放入 Statsmodels 或其他底层包中,许多模型可以在 AutoTS 之外以(相对)简单的方式进行逆向工程。在模型训练之后,可以将顶级模型导出到一个.csv或.json文件中,然后在下次运行时仅尝试这些模型。这可以提高容错能力(通过依赖不是一个,而是几个可能的模型和底层包),以及随着时间序列的发展在切换模型方面具有一定的灵活性。需要注意的一点是,由于 AutoTS 仍在开发中,模板格式可能会发生变化并且与未来的包版本不兼容。
# after fitting an AutoTS model
example_filename = "example_export.csv" # .csv/.json
model.export_template(example_filename, models='best',
n=15, max_per_model_class=3)
# on new training
model = AutoTS(forecast_length=forecast_length,
frequency='infer', max_generations=0,
num_validations=0, verbose=0)
model = model.import_template(example_filename, method='only')
# method='add on'
print("Overwrite template is: {}".format(str(model.initial_template)))
8.只运行一个模型
虽然上述部署版本(每次运行时都使用不断变化的模板和 cross_validation)是推荐的部署,但也可以运行单个固定模型。
from autots import load_daily, model_forecast
# 此函数不能使用长数据或非数值数据
df = load_daily(long=False)
# 指定使用哪个模型
df_forecast = model_forecast(
model_name="AverageValueNaive",
model_param_dict={'method': 'Mean'},
model_transform_dict={
'fillna': 'mean',
'transformations': {'0': 'DifferencedTransformer'},
'transformation_params': {'0': {}}
},
df_train=df,
forecast_length=12,
frequency='infer',
prediction_interval=0.9,
no_negatives=False,
# future_regressor_train=future_regressor_train2d,
# future_regressor_forecast=future_regressor_forecast2d,
random_seed=321,
verbose=0,
n_jobs="auto",
)
df_forecast.forecast.head(5)
该AUTOTS类的model.predict()运行由三个存储属性给出的模型:
model.best_model_name,
model.best_model_params,
model.best_model_transformation_params
9.Metrics评估指标
有许多可用的指标,全部组合成一个“分数”,用于评估最佳模型。通过自定义度量权重字典可以轻松调整比较模型的“分数”。较高的权重会增加该指标的重要性,而 0 会将该指标排除在考虑之外。权重必须是大于或等于 0 的数字。不要将这种权重与序列权重混淆,序列权重会影响任何一个指标如何平等地应用于所有序列。
**通常最好使用几个度量标准。**例如,通常sMAPE最好的模型在sMAPE中只比下位模型略好一点,但下位模型具有更好的MAE和RMSE。
(0)Horizontal 类型指标集合【多个指标】
Horizontal 样式集合使用metric_weighting进行系列选择,但只传递mae、rmse、contour、spl的值。如果这些都是0,mae用于选择。
(1)SMAPE
sMAPE通常是多个系列中最通用的度量,但不能很好地处理带有许多零的预测。
(2)SPL
SPL是缩放的Pinball Loss损失,是评估 上/下分位数预测精度的最佳度量。
(3)coverage_fraction
Containment测量介于预测上限和下限之间的测试数据的百分比,并且比 SPL 更易于阅读。也称为coverage_fraction.
(4)MADE【平均绝对微分误差】
MADE是平均绝对微分误差。与等高线类似,它衡量预测变化与实际时间步长变化的相似程度。轮廓测量方向,而 MADE 测量幅度。不适用于 forecast_length = 1。
https://winedarksea.github.io/AutoTS/build/html/source/tutorial.html#id5
10.Ensembles
Ensemble方法由ensemble =参数指定。它可以是列表,也可以是逗号分隔的字符串
简单样式集合(在模板中标记为“BestN”)是最容易识别的集合形式,是指定模型的简单平均,这里通常是3或5个模型。距离风格套装是两个模型拼接在一起。第一个模型预测预测期的第一部分,第二个模型预测预测期的后半段。模型之间没有重叠。简单模型和距离模型都是在第一个评估数据集上构建的,并与所有其他选择进行验证的模型一起运行。这两者也可以在深度上递归,包含意义
mosaic 是Horizontal 集合的延伸,但为每个系列和每个预测期选择特定的模型。因为这意味着模型的最大数量可以是系列* forecast_length的数量,所以这显然会变得非常缓慢。从理论上讲,这种合奏风格提供了最高的准确性。然而,mosaic 模型仅利用MAE进行模型选择,其上、下预测性能可能较差。他们也更容易过度拟合,所以使用更多的验证和更稳定的数据。与水平集合不同,水平集合只能处理多变量数据集,马赛克可以在单个时间序列上运行。
如果您只关心一个预测点的准确性,但希望对整个预测长度进行预测,那么您可以将mosaic集合转换为仅在该预测期间的水平。
import json
from autots.models.ensemble import mosaic_to_horizontal, model_forecast
# assuming model is from AutoTS.fit() with a mosaic as best_model
model_params = mosaic_to_horizontal(model.best_model_params, forecast_period=0)
result = model_forecast(
model_name="Ensemble",
model_param_dict=model_params,
model_transform_dict={},
df_train=model.df_wide_numeric,
forecast_length=model.forecast_length,
)
result.forecast
11.回归模型注意事项
回归模型是 WindowRegression、RollingRegression、UnivariateRegression、MultivariateRegression 和 DatepartRegression。对于传统的 ML 和深度学习方法,它们都是将时间序列重塑为 X 和 Y 的不同方法。所有这些都来自相同的潜在模型池,主要是 sklearn 和 tensorflow 模型。
- 
DatepartRegression 是 X 只是日期特征,Y 是该日期的时间序列值
- 
WindowRegression 将n前面的数据点作为 X 来预测该系列的未来值
- 
RollingRegression 将所有时间序列和这些序列的滚动值汇总在一个大型数据框中作为 X。适用于少量序列,但扩展性很差。
- 
MultivariateRegression 使用与上述相同的滚动特征,但一次只考虑一个,系列的特征用于i预测系列的下一步i,模型对所有系列的所有数据进行训练。
- 
UnivariateRegression 与 MultivariateRegression 相同,但在每个系列上训练一个独立的模型,因此无法从其他系列的模式中学习。这在水平合奏中表现良好,因为它可以被解析为一个在该系列上具有相同性能的系列。
这些模型的预测上限和下限在未来可能会发生变化。目前,multivariaterregression利用GradientBoostingRegressor与分位数损失的概率估计,而其他的利用点到概率估计。
12. 模型列表

                










