CASTLE 2024 Dataset

Name: CASTLE 2024 Dataset
Creator: 都柏林城市大学
Published: 2025-03-21 21:01:07
License: 暂无描述

arXiv2025-03-21 更新2025-03-25 收录

下载链接：

https://castle-dataset.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

CASTLE 2024数据集是一个包含第一人称和第三人称视角的多模态视频数据集，由都柏林城市大学等机构的研究人员创建。该数据集包含了10名参与者在4天内进行的一系列日常生活活动，总计超过600小时的超高清视频资料。它提供了15个时间对齐的视频源，包括10个参与者佩戴的GoPro HERO10相机和5个固定摄像头。数据集记录了参与者的真实互动，未进行面部模糊或音频扭曲等匿名处理，以保持数据的丰富性和真实性。该数据集适用于多媒体分析理解任务，如生活日志检索、对象和动作识别、社交互动分析以及动态3D场景的重建和分析。

The CASTLE 2024 dataset is a multimodal video dataset featuring first-person and third-person perspectives, created by researchers from institutions including Dublin City University. It comprises a series of daily living activities conducted by 10 participants over 4 days, with a total of over 600 hours of ultra-high-definition video footage. The dataset provides 15 temporally aligned video sources, including 10 GoPro HERO10 cameras worn by the participants and 5 fixed cameras. It records the real-world interactions of the participants, with no anonymization measures such as facial blurring or audio distortion applied, to preserve the richness and authenticity of the data. This dataset is applicable to multimedia analysis and understanding tasks, such as life log retrieval, object and action recognition, social interaction analysis, and dynamic 3D scene reconstruction and analysis.

提供机构：

都柏林城市大学

创建时间：

2025-03-21

搜集汇总

数据集介绍

构建方式

CASTLE 2024数据集通过多模态数据采集方法构建，涵盖了15个时间对齐的视角，包括10名参与者的第一人称视角和5个固定摄像机的第三人称视角。数据采集在爱尔兰西部的一处度假屋进行，持续四天，记录了参与者的日常社交和家庭活动。所有视频均以UHD分辨率（3840×2160像素）和50帧每秒的高帧率录制，总时长超过600小时。此外，数据集还包含心率监测、惯性测量单元（IMU）数据、GPS信息以及多语言对话的自动转录文本，确保了数据的全面性和多样性。

特点

CASTLE 2024数据集以其多视角、高分辨率和无审查内容为显著特点。数据集不仅提供了第一人称和第三人称视角的同步视频，还包含了丰富的传感器数据，如心率和运动轨迹。视频数据未经任何模糊或音频处理，保留了原始的真实性。此外，数据集涵盖了多种语言（英语、德语、瑞士德语和越南语）的对话内容，为跨语言研究提供了宝贵资源。其长时间的连续录制和多模态数据的融合，使其在人类行为分析、社交互动研究和多模态机器学习任务中具有独特优势。

使用方法

CASTLE 2024数据集适用于多种研究任务，包括事件实例搜索、对象实例搜索和视频问答。研究者可通过自然语言查询或参考图像，在数据集中检索特定事件或对象。数据集的时间对齐结构和多模态特性，使其成为开发跨模态检索和数据融合算法的理想选择。此外，数据集还可用于社会动力学分析、多语言语音识别和三维场景重建等高级应用。数据以一小时为单位的片段组织，并附有传感器数据和自动生成的文本转录，便于研究者快速定位和分析所需内容。

背景与挑战

背景概述

CASTLE 2024数据集由都柏林城市大学、卑尔根大学、阿姆斯特丹大学等多家研究机构联合开发，于2024年12月完成数据采集工作。该数据集旨在解决多模态理解领域的关键问题，即如何通过同步的多视角数据捕捉人类日常活动的复杂性。数据集包含10名参与者佩戴的头戴式摄像头和5个固定摄像头采集的超高清视频，总时长超过600小时，同时整合了心率监测、惯性测量单元等多源传感器数据。相较于传统的单视角数据集，CASTLE 2024通过融合第一人称和第三人称视角，为研究人类行为分析、社交互动等课题提供了前所未有的数据支持，对计算机视觉、人机交互等领域具有重要价值。

当前挑战

该数据集主要应对多模态理解中的两大挑战：一是解决传统数据集视角单一的问题，通过同步采集15个时间对齐的视频流，克服了单视角数据在行为理解中的局限性；二是数据采集过程中的技术难题，包括大规模超高清视频的同步录制、多源传感器数据的时序对齐、以及在不进行面部模糊处理情况下的隐私保护方案设计。构建过程中还需处理海量数据存储（总容量达8.22TB）、不同设备间的数据格式统一，以及在自然场景下维持连续四天不间断录制的设备稳定性问题。这些挑战的解决为未来大规模多模态数据集的建设提供了重要参考。

常用场景

经典使用场景

在计算机视觉与多媒体分析领域，CASTLE 2024数据集因其多模态、多视角的特性，成为研究人类日常行为和社会互动的理想选择。该数据集通过同步的15个高清摄像头（10个第一人称视角和5个第三人称视角）记录了600小时的超高清视频，涵盖了烹饪、用餐、游戏等多种真实场景。这种多视角的同步数据为研究者提供了丰富的视觉和听觉信息，使得分析人类行为和社会互动成为可能。

解决学术问题

CASTLE 2024数据集解决了现有数据集中视角单一、活动范围有限的问题。通过提供长时间、多视角的视频记录，该数据集能够支持复杂的人类行为分析、多模态数据融合以及跨视角的场景理解。其未经过任何模糊处理的原始数据，进一步提升了研究的真实性和准确性，为计算机视觉、社会动力学和语言学等领域提供了宝贵的研究资源。

衍生相关工作

CASTLE 2024数据集已经衍生出多项经典研究，包括多视角行为识别、跨模态检索和动态场景重建等。例如，基于该数据集的研究提出了新的多模态融合算法，显著提升了行为识别的准确率；另有研究利用其多视角特性，开发了高效的跨模态检索系统，为多媒体分析领域提供了新的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集