HyperTS：全管道自动化时间序列分析工具包

HyperTS简介

HyperTS是由DataCanvas公司开发的一款全面而强大的时间序列分析工具包。它为用户提供了端到端的自动化时间序列分析解决方案，涵盖了从数据清洗、预处理、特征工程到模型选择、超参数优化、结果评估和可视化的完整工作流程。

HyperTS logo

HyperTS的设计理念是"多模式驱动，轻重结合"。它支持统计模型(STATS)、深度学习(DL)和神经架构搜索(NAS)三种模式，用户可以根据需求灵活切换，以获得强大的时间序列估计器。作为一个易用且门槛较低的API，用户只需简单运行实验，就可以得到一个模型，然后执行 .predict()、.predict_proba()、.evaluate()、.plot()等方法进行各种时间序列分析。

主要特性

HyperTS支持以下主要特性：

多任务支持：时间序列预测、分类、回归和异常检测。
多模式支持：集成了大量时间序列模型，包括统计模型(如Prophet、ARIMA、VAR、iForest等)、深度学习模型(如DeepAR、GRU、LSTNet、NBeats、VAE等)，以及神经架构搜索。
多变量支持：从单变量到多变量时间序列分析。
协变量支持：深度学习模型支持将协变量作为输入特征用于时间序列预测。
概率区间支持：时间序列预测可视化可以显示置信区间。
多样化预处理：异常值裁剪、缺失值填充、序列平滑、归一化等。
丰富的评估指标：提供多种性能指标来评估结果和指导模型优化，包括MSE、SMAPE、Accuracy、F1-Score等。
强大的搜索策略：结合网格搜索、蒙特卡罗树搜索、进化算法和元学习器，实现强大而高效的时间序列分析流程。
集成学习：通过精炼贪婪集成方法，将最强大的模型组合在一起。
交叉验证：多种时间序列交叉验证策略确保模型的泛化能力。

安装

HyperTS可以通过pip或conda安装。需要注意的是，HyperTS依赖Prophet，建议先通过conda安装Prophet，然后再用pip安装HyperTS。Tensorflow是HyperTS的可选依赖，如果需要使用DL和NAS模式，则需要安装Tensorflow。

通过pip安装：

pip install hyperts
pip install tensorflow  # 可选，建议版本：>=2.0.0,<=2.10.0

通过conda安装：

conda install -c conda-forge hyperts

如果想安装最新版本，可以直接从GitHub安装：

git clone git@github.com:DataCanvasIO/HyperTS.git
cd HyperTS
pip install -e . 
pip install tensorflow  # 可选，建议版本：>=2.0.0,<=2.10.0

更多安装提示，请参阅安装文档。

快速入门

下面我们通过一个简单的时间序列预测示例来快速了解HyperTS的使用：

from hyperts import make_experiment
from hyperts.datasets import load_network_traffic
from sklearn.model_selection import train_test_split

# 加载数据
data = load_network_traffic()
train_data, test_data = train_test_split(data, test_size=0.2, shuffle=False)

# 创建并运行实验
model = make_experiment(train_data.copy(),
                        task='multivariate-forecast',
                        mode='stats',
                        timestamp='TimeStamp',
                        covariates=['HourSin', 'WeekCos', 'CBWD']).run()

# 预测和评估
X_test, y_test = model.split_X_y(test_data.copy())
y_pred = model.predict(X_test)
scores = model.evaluate(y_test, y_pred)

# 可视化
model.plot(forecast=y_pred, actual=test_data)

这个例子展示了如何使用HyperTS进行多变量时间序列预测。我们首先加载网络流量数据，然后将数据分为训练集和测试集。接着，我们创建一个实验，指定任务类型为多变量预测，使用统计模型模式。运行实验后，我们得到一个训练好的模型，然后用它来进行预测、评估和可视化。

预测结果图

进阶使用

HyperTS不仅支持时间序列预测，还支持分类、回归和异常检测等任务。以下是一些进阶使用示例：

时间序列分类

from hyperts import make_experiment
from hyperts.datasets import load_basic_motions
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split

data = load_basic_motions()
train_data, test_data = train_test_split(data, test_size=0.2)

model = make_experiment(train_data.copy(),
                        task='classification',
                        mode='dl',
                        tf_gpu_usage_strategy=1,
                        reward_metric='accuracy',
                        max_trials=30,
                        early_stopping_rounds=10).run()

X_test, y_test = model.split_X_y(test_data.copy())
y_pred = model.predict(X_test)
y_proba = model.predict_proba(X_test)

scores = model.evaluate(y_test, y_pred, y_proba=y_proba, metrics=['accuracy', 'auc', f1_score])
print(scores)

时间序列异常检测

from hyperts import make_experiment
from hyperts.datasets import load_real_known_cause_dataset
from sklearn.model_selection import train_test_split

data = load_real_known_cause_dataset()
ground_truth = data.pop('anomaly')

detection_length = 15000
train_data, test_data = train_test_split(data, test_size=detection_length, shuffle=False)

model = make_experiment(train_data.copy(),
                        task='detection',
                        mode='stats',
                        reward_metric='f1',
                        max_trials=30,
                        early_stopping_rounds=10).run()

X_test, _ = model.split_X_y(test_data.copy())
y_test = ground_truth.iloc[-detection_length:]

y_pred = model.predict(X_test)
y_proba = model.predict_proba(X_test)

scores = model.evaluate(y_test, y_pred, y_proba=y_proba)

model.plot(y_pred, actual=test_data, history=train_data, interactive=False)

时间序列元特征提取

from hyperts.toolbox import metafeatures_from_timeseries
from hyperts.datasets import load_random_univariate_forecast_dataset

data = load_random_univariate_forecast_dataset()

metafeatures = metafeatures_from_timeseries(x=data, timestamp='ds', scale_ts=True)