AutoTS

AutoTS是一个为Python设计的时间序列包，旨在快速部署大规模高精度预测。

2023年，AutoTS在M6预测竞赛中获胜，在12个月的股票市场预测中提供了最高性能的投资决策。

AutoTS包含数十个可以以sklearn风格使用.fit()和.predict()的预测模型。这些模型包括朴素、统计、机器学习和深度学习模型。此外，还有超过30种特定于时间序列的转换可以以sklearn风格使用.fit()、.transform()和.inverse_transform()。所有这些函数直接作用于Pandas数据框，无需转换为专有对象。

所有模型都支持多变量（多个时间序列）输出预测，并支持概率（上/下界）预测。大多数模型可以轻松扩展到数万甚至数十万个输入序列。许多模型还支持传入用户定义的外生回归变量。

这些模型都设计用于集成到AutoML特征搜索中，通过遗传算法自动为给定数据集找到最佳模型、预处理和集成方法。

水平和马赛克风格的集成是旗舰级的集成类型，允许每个序列获得最精确的模型，同时保持可扩展性。

多种指标和交叉验证选项、应用子集和权重的能力、回归器生成工具、模拟预测模式、事件风险预测、实时数据集、模板导入和导出、绘图以及一系列数据整形参数构成了可用的功能集。

安装

pip install autots

这包括基本模型的依赖项，但某些模型和方法需要额外的包。

请注意，有几个其他项目选择了类似的名称，所以请确保您使用的是正确的AutoTS代码、论文和文档。

基本使用

AutoTS的输入数据预期以长格式或宽格式提供：

宽格式是一个带有pandas.DatetimeIndex的pandas.DataFrame，每列是一个不同的序列。
长格式有三列：
- 日期（最好已经是pandas可识别的datetime格式）
- 序列ID。对于单个时间序列，series_id可以设为None。
- 值
对于长格式数据，这三列的列名分别通过date_col、id_col和value_col参数传递给.fit()。对于宽格式数据不需要参数。

低级函数仅设计用于宽格式数据。

# 也可以加载：_hourly, _monthly, _weekly, _yearly, 或 _live_daily
from autots import AutoTS, load_daily

# 示例数据集可以使用长格式或宽格式的导入形式
long = False
df = load_daily(long=long)

model = AutoTS(
    forecast_length=21,
    frequency='infer',
    prediction_interval=0.9,
    ensemble='auto',
    model_list="fast",  # "superfast", "default", "fast_parallel"
    transformer_list="fast",  # "superfast",
    drop_most_recent=1,
    max_generations=4,
    num_validations=2,
    validation_method="backwards"
)
model = model.fit(
    df,
    date_col='datetime' if long else None,
    value_col='value' if long else None,
    id_col='series_id' if long else None,
)

prediction = model.predict()
# 绘制样本图
prediction.plot(model.df_wide_numeric,
                series=model.df_wide_numeric.columns[0],
                start_date="2019-01-01")
# 打印最佳模型的详细信息
print(model)

# 点预测数据框
forecasts_df = prediction.forecast
# 上界和下界预测
forecasts_up, forecasts_low = prediction.upper_forecast, prediction.lower_forecast

# 所有尝试过的模型结果的准确性
model_results = model.results()
# 并从交叉验证中汇总
validation_results = model.results("validation")

低级 API，尤其是大量 scikit-learn 风格的时间序列转换器部分，也可以独立于 AutoML 框架使用。

查看 extended_tutorial.md 获取更详细的功能指南。

另外也可以看看 production_example.py

提高速度和处理大数据的技巧：

使用适当的模型列表，尤其是预定义列表：
- superfast（简单的朴素模型）和 fast（更复杂但仍然更快的模型，针对多个序列优化）
- 如果有多个 CPU 核心可用，使用 fast_parallel（fast 和 parallel 的组合）或 parallel
  - n_jobs 通常使用 ='auto' 就能很好地适应，但根据环境需要进行调整
- 当存在许多序列时，'scalable' 是避免崩溃的最佳列表。transformer_list 也有 'scalable' 选项
- 使用 from autots.models.model_list import model_lists 查看预定义列表的字典（有些是为内部使用定义的）
当有许多相似的序列时，使用 subset 参数，subset=100 通常能很好地概括数万个相似序列。
- 如果使用 subset，传递序列的 weights 将使子集选择偏向优先级更高的序列。
- 如果受到 RAM 限制，可以通过在不同的数据批次上运行多个 AutoTS 实例来分布处理，首先导入预训练的模板作为所有实例的起点。
设置 model_interrupt=True，这样当按下 KeyboardInterrupt（即 crtl+c）时会跳过当前模型（但如果中断发生在几代之间，它会停止整个训练）。
使用 .fit() 的 result_file 方法，它会在每一代后保存进度 - 这对于保存长时间训练的进度很有帮助。使用 import_results 来恢复。
虽然转换速度相当快，但将 transformer_max_depth 设置为较低的数值（比如 2）会提高速度。也可以使用 transformer_list == 'fast' 或 'superfast'。
查看这个例子了解如何将 AutoTS 与 pandas UDF 结合使用。
集成显然预测速度较慢，因为它们运行多个模型，'distance' 模型速度慢 2 倍，'simple' 模型慢 3-5 倍。
- 如果有多个 CPU 核心，ensemble='horizontal-max' 和 model_list='no_shared_fast' 可以相对较好地扩展，因为每个模型只在需要的序列上运行。
减少 num_validations 和 models_to_validate 将减少运行时间，但可能导致模型选择效果较差。
对于有大量记录的数据集，如果合适的话，上采样（例如，从每日到每月频率的预测）可以减少训练时间。
- 这可以通过调整 frequency 和 aggfunc 来完成，但最好在将数据传入 AutoTS 之前完成。
如果 NaN 已经填充，速度会更快。如果不需要搜索最佳 NaN 填充方法，那么在传递给类之前用满意的方法填充任何 NaN。
在 metric_weighting 中将 runtime_weighting 设置为更高的值。这将引导搜索朝向更快的模型，尽管可能会以牺牲准确性为代价。
内存不足是最常见的随机进程/内核崩溃原因。如果出现问题，尝试测试数据子集并使用不同的模型列表。如果发现崩溃与特定的模型参数集（不是 AutoTS 参数，而是底层预测模型参数）有关，请也报告崩溃。此外，崩溃在不同环境之间有显著差异，比如底层 linpack/blas，所以在不同环境之间看到崩溃差异是可以预期的。