支持的数据集
PaddleTS目前支持包含时序预测、时序异常检测、时序补全、时序分类四大任务在内的数十种数据集。
时序预测
时序预测是时间序列中最重要的任务之一,目前我们针对时序预测集成了电力、天气、疾病、汇率等多个场景下的数据。
1. ETT-small
数据简介:包含22个变量的每十分钟采样天气数据,用于预测天气。
数据集名称:ETTh1、ETTh2、ETTm1、ETTm2。
2. Weather
数据简介:包含22个变量的每十分钟采样天气数据,用于预测天气。
数据集名称:Weather。
3. ILI
数据来源:https://gis.cdc.gov/grasp/fluview/fluportaldashboard.html
数据简介:包含22个变量的每天采样,跨度19年的流感疾病数据,用于预测流感病人比例。
数据集名称:ILI。
4. Traffic
数据简介:包含862个传感器下,每小时的道路占用比例。
数据集名称:Traffic。
5. Exchange
数据来源:https://github.com/laiguokun/multivariate-time-series-data
数据简介:包含跨度36年的每天采样的汇率数据。
数据集名称:Exchange。
6. ECL
数据来源:https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014
数据简介:包含321个客户跨度4年的每小时用电数据,用于预测各地区的电力需求。
Dataset name: ECL.
6. M4
数据来源:https://www.kaggle.com/datasets/yogesh94/m4-forecasting-competition-dataset
数据集简介:包含人后、经济、工业、宏观经济、微观经济等的100000条单变量数据。
数据集名称:M4-Yearly-train, M4-Yearly-test, M4-Monthly-train, M4-Monthly-test, M4-Weekly-train, M4-Weekly-test, M4-Daily-train, M4-Daily-test, M4-Hourly-train, M4-Hourly-test。
7. WTH
数据来源:https://www.ncei.noaa.gov/data/local-climatological-data/
数据简介:包含12个变量跨度4年的每小时天气数据,用于预测各地区的天气。
数据集名称:WTH、UNI_WTH。
Time Series Anomaly Detection
从监测数据中检测异常对工业维护至关重要。我们提供广泛使用的异常检测基准:SMD,MSL、SMAP、SWaT、PSM, 涵盖了服务器监控、太空和地球勘探和水处理应用。
1. SMD
Data source: https://github.com/NetManAIOps/OmniAnomaly/tree/master/ServerMachineDataset
数据简介:SMD(服务器机器数据集)是从一家大型互联网公司收集的为期5周的38维数据集。
Dataset names: smd_train, smd_test.
2. SMAP
数据来源: https://raw.githubusercontent.com/khundman/telemanom/master/labeled_anomalies.csv
数据简介: SMAP来自美国国家航空航天局,具有25个维度,其中包含来自航天器监测系统的意外事件异常(ISA)报告的遥测异常数据。
Dataset names: smap_train, smap_test.
3. MSL
数据简介:MSL(火星科学实验室)来自美国国家航空航天局,具有55个维度,其中包含来自航天器监测系统的意外事件异常(ISA)报告的遥测异常数据.
Dataset names: msl_train, msl_test.
4. SWAT
数据来源:https://itrust.sutd.edu.sg/itrust-labs_datasets/dataset_info
数据简介:SWaT(安全水处理)是从连续运行的关键基础设施系统的51个传感器中获得的。
Dataset names: swat_train, swat_test.
5. PSM
数据来源:https://cloud.tsinghua.edu.cn/d/9605612594f0423f891e/files/?p=%2FPSM%2Ftrain.csv
数据简介:PSM是从eBay的多个应用程序服务器节点内部收集的,共有26个维度。
Dataset names: psm_train, psm_test.
6. NAB_TEMP
Data source: https://github.com/numenta/NAB
数据简介:Numenta异常基准(NAB)为研究异常检测算法提供流数据。NAB_TEMP是温度数据集。
Dataset names: NAB_TEMP
时序分类
1. UEA
数据简介:UEA时间序列分类数据集包括10个多变量数据集,涵盖手势、动作和音频识别、心跳监测医学诊断等实际任务。
数据集名称:EthanolConcentration_Train, EthanolConcentration_Test, FaceDetection_Train, FaceDetection_Test, Handwriting_Train, Handwriting_Test, Heartbeat_Train, Heartbeat_Test, JapaneseVowels_Train, JapaneseVowels_Test, PEMSSF_Train, PEMSSF_Test, SelfRegulationSCP1_Train, SelfRegulationSCP1_Test, SelfRegulationSCP2_Train, SelfRegulationSCP2_Test, SpokenArabicDigits_Train, SpokenArabicDigits_Test, UWaveGestureLibrary_Train, UWaveGestureLibrary_Test
2. BasicMotion
数据来源:https://timeseriesclassification.com/description.php?Dataset=BasicMotions
数据简介:四名学生戴着智能手表进行了四项活动:散步、休息、跑步和羽毛球。参与者被要求总共记录五次动作,数据每十分之一秒采样一次,持续10秒。
数据集名称:BasicMotions_Train, BasicMotions_Test。