CAPTURE-24
收藏arXiv2024-02-29 更新2024-06-21 收录
下载链接:
https://doi.org/10.5287/bodleian:NGx0JOMP5
下载链接
链接失效反馈资源简介:
CAPTURE-24是由牛津大学大数据研究所创建的大规模活动追踪数据集,旨在解决传统实验室环境下数据收集的局限性。该数据集包含151名参与者在自然环境下的24小时活动数据,总计3883小时,其中2562小时已通过穿戴相机和睡眠日记进行标注。数据集内容丰富,包括多种日常活动和运动,通过精细的标注过程确保数据质量。CAPTURE-24的应用领域广泛,特别适用于深度学习等数据密集型方法的研究,以提高人类活动识别模型的准确性和泛化能力。
CAPTURE-24 is a large-scale activity tracking dataset developed by the Big Data Institute at the University of Oxford, which aims to address the limitations of data collection in traditional laboratory settings. This dataset encompasses 24-hour activity data from 151 participants collected in naturalistic environments, with a total duration of 3883 hours, among which 2562 hours have been annotated using wearable cameras and sleep diaries. Boasting rich content covering diverse daily activities and exercises, the dataset ensures data quality through a meticulous annotation workflow. CAPTURE-24 has broad application prospects, and is particularly suitable for research on data-intensive methodologies such as deep learning, with the goal of enhancing the accuracy and generalization capability of human activity recognition models.
提供机构:
牛津大学大数据研究所
创建时间:
2024-02-29
AI搜集汇总
数据集介绍

构建方式
CAPTURE-24数据集的构建采用了在自然环境中的自由生活场景进行数据收集的方法。参与者被要求连续佩戴腕戴式加速度计,并在白天佩戴可穿戴相机。为了监测睡眠,参与者被要求填写简单的睡眠日记。加速度计数据通过Axivity Omgui软件进行初始化、同步和下载,并进行了采样率校正和重力自校准。数据标注使用了CPA活动代码,并经过标注者培训和质量检查。为了保护参与者隐私,数据集发布时去除了图像数据,并对参与者年龄进行了分组,日期随机化,时间戳也进行了随机偏移。
使用方法
CAPTURE-24数据集可用于活动识别研究,特别是深度学习等数据密集型方法。数据集已经预处理为10秒长度的固定大小、非重叠的滑动窗口,每个窗口包含三个轴的数据,总共922,199个窗口。数据集被分为训练集和测试集,分别包含100名和51名参与者的数据。数据集还包括了参与者的性别和年龄信息,以及标注方案的映射文件。数据集的发布遵循了隐私和伦理标准,并提供了相应的数据处理和标注工具。
背景与挑战
背景概述
在可穿戴设备日益普及的当下,活动追踪器在健康监测、数字表型分析以及大规模人群研究中扮演着越来越重要的角色。然而,现有的活动追踪数据集往往在封闭环境下收集,参与者执行预设的活动,导致数据量小、活动种类有限,缺乏真实生活中混合和细微的运动模式。为了解决这一问题,研究人员开发了一个名为CAPTURE-24的新数据集,该数据集通过手腕佩戴的加速度计、可穿戴摄像头和睡眠日记,在自然环境下的自由生活场景中收集了超过24小时的数据。CAPTURE-24数据集由151名参与者的数据组成,共计3883小时的加速度计数据,其中2562小时经过标注。该数据集比现有的公开数据集大两到三个数量级,对于开发准确的人类活动识别模型至关重要。
当前挑战
CAPTURE-24数据集在解决现有活动追踪数据集的局限性方面取得了重要进展,但仍面临一些挑战。首先,由于数据收集过程中的自由生活方式,许多真实世界中的活动是相互交织的,这使得细粒度分类变得更加困难。其次,尽管数据集规模庞大,但深度学习方法在小型数据集上的优势并不明显,这表明需要更大的数据集才能充分发挥其潜力。此外,由于摄像头数据可能因遮挡、光照条件差或模糊而缺乏信息,以及标注过程中可能存在的主观猜测,数据标注的准确性也面临挑战。最后,CPA代码的一些定义更多地强调区分能量强度而非行为,这可能导致某些代码在回顾性解释和重新标记时存在歧义。
常用场景
经典使用场景
CAPTURE-24数据集在人类活动识别领域具有广泛的应用场景,尤其在可穿戴传感器和深度学习方法方面具有重要意义。该数据集包含151名参与者超过24小时的腕戴式加速度计数据,为研究人类活动提供了丰富的数据资源。在经典使用场景中,CAPTURE-24数据集可用于开发精准医疗、数字表型分析以及大规模人群和流行病学研究等领域。例如,通过分析个体日常活动,可以预测心血管疾病风险、评估慢性病进展以及识别运动障碍等。此外,CAPTURE-24数据集还可用于训练和评估活动识别模型,如随机森林、XGBoost、隐马尔可夫模型和深度学习方法等。通过在CAPTURE-24数据集上进行的基准测试,研究者可以发现模型的性能瓶颈,并进一步优化模型结构和参数,以提高活动识别的准确性和泛化能力。
解决学术问题
CAPTURE-24数据集解决了现有活动识别数据集的多个问题,包括数据规模有限、代表性不足以及活动种类和模式单一等。首先,CAPTURE-24数据集拥有超过2562小时的标注数据,比现有公开数据集大几个数量级,为深度学习方法提供了充足的数据资源。其次,CAPTURE-24数据集在真实环境中收集数据,涵盖了日常生活中多样化的活动和运动模式,使模型更具代表性和泛化能力。最后,CAPTURE-24数据集采用了多模态监测方法,包括腕戴式加速度计、可穿戴相机和睡眠日记,克服了传统数据收集方法的局限性。这些改进使CAPTURE-24数据集成为研究人类活动识别领域的重要资源,有助于推动相关研究的深入发展。
实际应用
CAPTURE-24数据集在实际应用场景中具有广泛的应用前景。首先,该数据集可用于开发精准医疗解决方案,通过分析个体日常活动,预测疾病风险并制定个性化的健康管理计划。其次,CAPTURE-24数据集可应用于数字表型分析,通过识别个体的行为模式,为临床研究和药物开发提供有价值的信息。此外,CAPTURE-24数据集还可用于大规模人群和流行病学研究,通过分析人群活动数据,揭示疾病发生和发展规律,为公共卫生政策制定提供科学依据。最后,CAPTURE-24数据集还可用于可穿戴设备研发,通过优化活动识别算法,提高设备的准确性和实用性。
数据集最近研究
最新研究方向
CAPTURE-24数据集的发布,为人类活动识别领域带来了新的研究机遇。该数据集在野外的真实环境中收集了大量手腕佩戴式加速度计数据,解决了现有数据集规模小、代表性不足的问题。CAPTURE-24数据集的规模比现有公开数据集大2到3个数量级,为深度学习等数据密集型方法的研究提供了宝贵的资源。该数据集的发布将推动人类活动识别模型在医疗保健、数字表型以及大规模人口和流行病学研究中的应用。未来的研究可以探索更精细的活动分类、开放集识别、多模态监测等方向,以进一步提高模型的准确性和实用性。
相关研究论文
- 1CAPTURE-24: A large dataset of wrist-worn activity tracker data collected in the wild for human activity recognition牛津大学大数据研究所 · 2024年
以上内容由AI搜集并总结生成



