Rehab-Pile|康复运动数据集|医疗研究数据集

arXiv2025-07-29 更新2025-07-30 收录

康复运动

医疗研究

下载链接：

https://hadifawaz1999.github.io

下载链接

链接失效反馈

资源简介：

Rehab-Pile是一个统一的档案，包含了60个现有的康复运动数据集。这些数据集来源于9个公开的数据仓库，旨在支持对现有和未来方法的更稳健分析。数据集包含的练习类型多样，涵盖了从日常活动到康复训练的各种动作。Rehab-Pile旨在为康复运动评估领域提供一个标准化的基准，促进研究的可重复性和可比性。

提供机构：

IRIMAS, Universite de Haute-Alsace, France; MICC, University of Florence, Italy; DSAI, Monash University, Australia

创建时间：

2025-07-29

AI搜集汇总

数据集介绍

构建方式

Rehab-Pile数据集通过整合现有的康复运动数据集构建而成，涵盖了从9个公开数据源中提取的60个独立数据集，其中39个用于分类任务，21个用于外生回归任务。每个数据集对应特定的康复运动，数据采集采用Kinect摄像头等可穿戴设备，捕捉患者的运动序列并记录关键关节坐标。数据集经过统一的帧率重采样处理，确保时间维度一致性，并采用傅里叶变换方法进行序列长度标准化。训练集与测试集的划分遵循跨受试者协议，避免数据泄露，同时针对健康与患病受试者采用不同的交叉验证策略。

特点

该数据集的核心特点在于其多模态评估能力与临床细粒度标注。数据集包含三维骨骼序列数据，每个样本由长度L的帧序列、J个关节的D维坐标构成，形成(L,J,D)张量结构。其标注体系涵盖二元/多类分类标签（如动作正确性判断）和连续回归评分（如阿尔茨海默病严重程度）。特别值得注意的是数据集的时空双重特性：时间维度上捕捉运动动态，空间维度上保留关节拓扑关系。此外，数据集通过最小-最大归一化处理消除量纲差异，并针对类不平衡问题提供平衡准确率指标，增强了评估的鲁棒性。

使用方法

使用Rehab-Pile需遵循标准化的处理流程：首先将骨骼序列转换为(J×D)通道的多元时间序列，输入模型前需按训练集统计量进行归一化。对于分类任务，建议采用集成策略（如5次随机初始化的模型预测平均）以提升稳定性；回归任务需注意标签的0-1归一化及后续反归一化处理。评估时需严格采用论文提供的交叉验证方案，分类任务推荐同时监控准确率与平衡准确率，回归任务则采用MAE和RMSE双指标。为保障结果可比性，应使用作者开源的基准框架（基于TensorFlow-Keras），并注意STGCN等图网络模型需单独处理骨骼拓扑结构。

背景与挑战

背景概述

Rehab-Pile数据集由Ali Ismail-Fawaz等研究人员于2025年创建，旨在解决基于骨骼的人类运动康复评估领域的关键问题。该数据集整合了9个公开可用的康复运动数据集，包含60个独立任务，其中39个用于分类任务，21个用于外生回归任务。研究团队来自法国上阿尔萨斯大学、意大利佛罗伦萨大学和澳大利亚莫纳什大学等机构。该数据集的建立填补了康复运动评估领域缺乏标准化基准的空白，为深度学习模型在该领域的应用提供了统一评估框架。数据集的核心价值在于其专注于同一动作类别内运动质量的细微差异分析，而非简单的动作分类，这为开发精准、个性化的康复解决方案奠定了基础。

当前挑战

Rehab-Pile数据集主要解决两个层面的挑战：在领域问题层面，康复运动评估需要检测理想运动的细微偏差，这比常规动作识别更具挑战性；在构建过程层面，研究人员面临数据异构性（不同采集设备和协议）、运动质量标注的主观性、跨数据集标准化等难题。具体挑战包括：1) 如何统一不同来源数据集的时间序列长度和骨骼关节点定义；2) 处理临床评分中的主观偏差问题；3) 设计能够捕捉时空模式且对设备噪声鲁棒的评估算法；4) 在保持动作类别一致性的同时量化运动质量差异。这些挑战使得该数据集成为测试深度学习模型时空建模能力的严格基准。

常用场景

经典使用场景

Rehab-Pile数据集在康复医学领域具有重要应用价值，主要用于基于骨架序列的运动康复评估。该数据集通过整合9个公开康复数据集中的60个独立训练任务（39个分类任务和21个外源回归任务），为深度学习模型提供了评估运动质量的标准化基准。其典型使用场景包括对患者执行特定康复动作时的运动偏差检测，如深蹲动作中膝关节角度异常的识别，或肩部外展运动中关节轨迹偏离理想路径的量化分析。数据集采用Kinect等低成本设备采集的骨架数据，使得研究成果更易于向临床和家庭康复场景转化。

解决学术问题

Rehab-Pile有效解决了康复评估领域三个关键学术问题：首先，填补了标准化评估基准的空白，通过统一60个数据集的预处理流程和交叉验证协议，使不同研究方法具备可比性；其次，针对传统动作识别与康复评估的差异，专门设计了对同一动作类别内运动质量的细粒度评估任务；最后，通过公开数据集和源代码，显著提升了研究可复现性。该数据集特别关注时间序列分类与回归任务，使得研究者能够开发可检测阿尔茨海默症严重程度（EHE数据集）或量化运动表现评分（KIMORE数据集）的算法模型。

衍生相关工作

Rehab-Pile的发布推动了多项衍生研究：1）LITEMV架构通过深度可分离卷积和手工设计滤波器，在该数据集上取得最优性能，相关成果发表在时序分析顶刊；2）催生了面向康复评估的Transformer变体ConvTran，其卷积嵌入策略显著优于传统自注意力机制；3）基于该基准的对比研究揭示了图卷积网络（STGCN）在分类任务中的局限性，促使学界重新思考空间-时间特征提取范式。数据集还支持了《康复评估中的运动生成》等跨模态研究，为动作纠正建议生成提供了质量评估标准。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。

国家青藏高原科学数据中心收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库，包含超过130万条记录，涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

lmarena-ai/arena-hard-auto-v0.1

--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```

hugging_face 收录

highD

highD数据集是由亚琛工业大学汽车工程研究所创建的，旨在为高度自动化驾驶系统的安全验证提供大规模自然车辆轨迹数据。该数据集包含从德国高速公路收集的16.5小时测量数据，涵盖110,000辆车，总行驶距离达45,000公里，记录了5600次完整的变道行为。数据集通过配备高分辨率摄像头的无人机从空中视角进行测量，确保了数据的准确性和自然性。highD数据集不仅用于安全验证和影响评估，还支持交通模拟模型、交通分析、驾驶员模型和道路用户预测模型等领域的研究，旨在解决高度自动化驾驶系统在复杂交通环境中的应用问题。

arXiv 收录