支持的数据集

PaddleTS目前支持包含时序预测、时序异常检测、时序补全、时序分类四大任务在内的数十种数据集。

时序预测

时序预测是时间序列中最重要的任务之一,目前我们针对时序预测集成了电力、天气、疾病、汇率等多个场景下的数据。

1. ETT-small

  • 数据来源:https://www.bgc-jena.mpg.de/wetter

  • 数据简介:包含22个变量的每十分钟采样天气数据,用于预测天气。

  • 数据集名称:ETTh1、ETTh2、ETTm1、ETTm2。

2. Weather

  • 数据来源:https://www.bgc-jena.mpg.de/wetter

  • 数据简介:包含22个变量的每十分钟采样天气数据,用于预测天气。

  • 数据集名称:Weather。

3. ILI

4. Traffic

  • 数据来源:https://pems.dot.ca.gov

  • 数据简介:包含862个传感器下,每小时的道路占用比例。

  • 数据集名称:Traffic。

5. Exchange

6. ECL

6. M4

  • 数据来源:https://www.kaggle.com/datasets/yogesh94/m4-forecasting-competition-dataset

  • 数据集简介:包含人后、经济、工业、宏观经济、微观经济等的100000条单变量数据。

  • 数据集名称:M4-Yearly-train, M4-Yearly-test, M4-Monthly-train, M4-Monthly-test, M4-Weekly-train, M4-Weekly-test, M4-Daily-train, M4-Daily-test, M4-Hourly-train, M4-Hourly-test。

7. WTH

Time Series Anomaly Detection

从监测数据中检测异常对工业维护至关重要。我们提供广泛使用的异常检测基准:SMD,MSL、SMAP、SWaT、PSM, 涵盖了服务器监控、太空和地球勘探和水处理应用。

1. SMD

2. SMAP

3. MSL

  • 数据来源: https://s3-us-west-2.amazonaws.com/telemanom/data.zip

  • 数据简介:MSL(火星科学实验室)来自美国国家航空航天局,具有55个维度,其中包含来自航天器监测系统的意外事件异常(ISA)报告的遥测异常数据.

  • Dataset names: msl_train, msl_test.

4. SWAT

5. PSM

6. NAB_TEMP

  • Data source: https://github.com/numenta/NAB

  • 数据简介:Numenta异常基准(NAB)为研究异常检测算法提供流数据。NAB_TEMP是温度数据集。

  • Dataset names: NAB_TEMP

时序分类

1. UEA

  • 数据来源:https://www.timeseriesclassification.com/index.php

  • 数据简介:UEA时间序列分类数据集包括10个多变量数据集,涵盖手势、动作和音频识别、心跳监测医学诊断等实际任务。

  • 数据集名称:EthanolConcentration_Train, EthanolConcentration_Test, FaceDetection_Train, FaceDetection_Test, Handwriting_Train, Handwriting_Test, Heartbeat_Train, Heartbeat_Test, JapaneseVowels_Train, JapaneseVowels_Test, PEMSSF_Train, PEMSSF_Test, SelfRegulationSCP1_Train, SelfRegulationSCP1_Test, SelfRegulationSCP2_Train, SelfRegulationSCP2_Test, SpokenArabicDigits_Train, SpokenArabicDigits_Test, UWaveGestureLibrary_Train, UWaveGestureLibrary_Test

2. BasicMotion