七个新的基准数据集

arXiv2023-12-18 更新2024-07-30 收录

下载链接：

https://github.com/EricssonResearch/UDA-4-TSC

下载链接

链接失效反馈

官方服务：

资源简介：

覆盖了各种领域转移和时间动态，用于评估时间序列分类的无监督领域适应技术。

This dataset covers diverse domain shifts and temporal dynamics, and is utilized to evaluate unsupervised domain adaptation techniques for time series classification.

创建时间：

2023-12-15

原始信息汇总

无监督域适应时间序列分类数据集

数据集概述

该数据集用于“深度无监督域适应时间序列分类：基准测试”研究，由Ericsson Research法国团队开发。

数据集使用

环境要求

Python版本：3.10
依赖安装： bash pip install -r requirements.txt

运行示例

生成配置文件： bash python3 -m _utils.generate_conf stages/preprocess=har stages/train=CoDATS utils.idxExperiment=1 stages.tune.tuner_config.address=null stages.tune.ray_config.resume=false stages.tune.ray_config.num_samples=1 global.train_time_limit=15 global.tune_time_limit=30 ++stages.tune.tuner_config.hyperparam_fixed.device=cpu stages.tune.ray_config.resources_per_trial.gpu=0
运行管道： bash bash run.sh
查看结果： bash cat output/results/dataset_name=har/source=12/target=16/classifier_name=CoDATS/metrics.json

Docker支持

构建Docker镜像： bash docker build -t uda-4-tsc:latest .
运行Docker容器： bash docker run --name uda-4-tsc --network host --entrypoint bash -idt -v /path/to/cloned/uda-4-tsc:/tmp uda-4-tsc:latest

数据集结果

完整结果可在results/目录下查看。

引用

如需引用该工作，请使用以下格式：

@misc{uda4tsc, title={Deep Unsupervised Domain Adaptation for Time Series Classification: a Benchmark}, author={Ismail Fawaz, Hassan and Del Grosso, Ganesh and Kerdoncuff, Tanguy and Boisbunon, Aurelie and Saffar, Illyyne}, year={2023}, eprint={2312.09857}, archivePrefix={arXiv}, primaryClass={cs.LG} }

许可证

该工作遵循BSD 3-Clause License。

搜集汇总

数据集介绍

构建方式

在时间序列分类领域，无监督域适应（UDA）的研究长期缺乏标准化评估基准。为填补这一空白，本研究通过整合七个新颖的基准数据集，构建了一个全面的评估框架。这些数据集覆盖机械故障诊断、医疗信号分析、运动识别及遥感监测等多个领域，每个数据集均包含明确的源域和目标域划分，且目标域数据完全无标签。数据采集过程严格遵循各领域标准协议，例如福特数据集在噪声与无噪声条件下分别采集引擎振动信号，而PTB-XL心电图数据集则来自不同临床站点的患者记录。所有时间序列均经过统一的预处理流程，包括标准化和时序因果性保持，确保数据质量与一致性。

特点

该数据集的核心特点在于其多样化的领域偏移与复杂的时序动态特性。七个新增数据集涵盖了协变量偏移、概念漂移等多种分布差异场景，例如超声肌肉收缩数据中不同受试者间的个体差异，以及迷你时间匹配数据中欧洲不同区域的气候变化影响。每个数据集均提供多通道、可变长度的时间序列，并包含从二分类到多分类的丰富类别体系。此外，数据集特别强调现实应用场景的模拟，如睡眠分期数据中的类别不平衡问题，以及在线手写方程数据中基于书写者身份的域划分，这些特性为评估域适应算法的鲁棒性提供了严峻挑战。

使用方法

该数据集的使用遵循标准化的五阶段机器学习流程。首先，原始时间序列数据被划分为训练、验证和测试集，其中目标域数据在训练阶段仅提供未标注样本。其次，所有数据经过统一的预处理操作，如z-score归一化。在超参数调优阶段，研究者可采用源域风险、目标域风险或重要性加权交叉验证三种策略，在固定计算预算内进行模型选择。训练过程中，算法需同时利用标注的源域数据和未标注的目标域数据，通过对抗训练、对比学习或频域分析等技术实现域适应。最终，模型在完全未见过的目标域测试集上进行评估，确保评估结果的公正性与可复现性。

背景与挑战

背景概述

在时间序列分类领域，随着物联网和大数据的普及，时间序列数据在医疗、制造、遥感及人类活动识别等领域的应用日益广泛。然而，当机器学习模型在训练和部署环境面临数据分布差异时，其性能往往显著下降，这一挑战催生了无监督域自适应技术的研究。尽管在计算机视觉和自然语言处理领域，UDA已取得显著进展，但针对时间序列数据的UDA研究仍相对匮乏。为此，爱立信研究院的Hassan Ismail Fawaz等研究人员于2023年提出了一个专注于时间序列分类的深度无监督域自适应基准，并引入了七个新的基准数据集。这些数据集覆盖了机械、医疗、运动和遥感等多个主题，旨在通过标准化的评估框架，推动时间序列域自适应方法的发展，并为实际应用提供可靠的技术支持。

当前挑战

该数据集致力于解决时间序列分类中的无监督域自适应问题，其核心挑战在于如何利用带标签的源域数据来训练模型，以准确分类无标签的目标域数据，尤其是在数据分布存在显著差异时。具体挑战包括：1）领域适应性算法的有效性评估，需在多样化的域偏移场景下保持模型鲁棒性；2）数据构建过程中，需处理时间序列的时序动态性和多变性，例如传感器噪声、个体差异或环境变化导致的分布偏移；3）超参数调优在目标域无标签情况下的复杂性，如何选择合适的方法（如源风险、重要性加权交叉验证）以平衡模型性能与计算成本。

常用场景

经典使用场景

在时间序列分类领域，无监督域自适应（UDA）技术旨在利用带标签的源域数据训练模型，以应对无标签目标域数据的分布偏移。该数据集通过引入七个涵盖机械、医疗、运动和遥感等多元领域的新基准数据集，为评估深度学习驱动的UDA方法提供了标准化平台。其经典使用场景聚焦于跨域时间序列分类任务，例如在医疗心电图分析中，模型需适应不同临床站点采集的数据分布差异，或是在机械故障诊断中处理不同噪声环境下的振动信号。这些场景均涉及源域与目标域之间存在显著协变量偏移，而条件分布保持不变的假设，从而为域自适应算法的鲁棒性与泛化能力提供了严谨的验证框架。

实际应用

在实际应用中，该数据集支撑的UDA技术能够有效应对现实世界中数据分布动态变化带来的挑战。例如，在远程农业监测中，模型可利用已有地区的作物光谱数据，自适应地识别新地区受气候与土壤差异影响的作物类型；在工业物联网场景下，机械振动数据可从低噪声环境迁移至高噪声产线，实现故障诊断模型的跨设备部署。此外，医疗领域的肌电信号分析可借助不同受试者的数据，提升肌肉收缩检测的个体适应性。这些应用不仅降低了数据标注成本，还增强了模型在异构环境中的泛化能力，为智慧医疗、智能制造及精准农业等关键领域提供了可靠的技术支撑。

衍生相关工作

该数据集的推出催生了一系列针对时间序列UDA的经典研究工作。基于其基准框架，学者们发展了如InceptionRain、InceptionDANN等结合InceptionTime骨干网络的对抗学习方法，以及融合时序混合与对比学习的CoTMix扩展版本InceptionMix。同时，频域分析算法Raincoat通过分离时间与频率特征，启发了多模态域自适应架构的探索。此外，数据集被广泛应用于评估稀疏关联结构对齐方法SASA等新兴技术，促进了跨域特征对齐与分布匹配理论的演进。这些衍生工作不仅深化了对时间序列域偏移本质的理解，还推动了超参数调优、骨干网络设计等关键方向的创新，形成了该领域持续发展的核心脉络。

以上内容由遇见数据集搜集并总结生成