Visual Experience Dataset (VEDB)

Name: Visual Experience Dataset (VEDB)
Creator: 哥伦比亚大学巴纳德学院
Published: 2024-02-15 18:34:28
License: 暂无描述

arXiv2024-02-15 更新2024-06-21 收录

下载链接：

https://nyu.databrary.org/volume/1612

下载链接

链接失效反馈

官方服务：

资源简介：

Visual Experience Dataset (VEDB) 是由哥伦比亚大学巴纳德学院等机构创建的大型数据集，包含超过240小时的以自我为中心的视频，结合了注视和头部追踪数据，提供了人类观察者视觉世界的独特视角。数据集包含717个会话，记录了58名年龄在6至49岁之间的观察者。VEDB旨在通过提供基于现实世界经验的数据集，以及广泛的元数据和支持代码，邀请研究社区利用和贡献于VEDB，以促进对自然环境中的视觉感知和行为的更丰富理解。数据集的应用领域广泛，包括改进注视追踪方法、评估时空图像统计和优化场景及活动识别的深度神经网络。

Visual Experience Dataset (VEDB) is a large-scale dataset developed by Barnard College of Columbia University and other research institutions. It encompasses over 240 hours of egocentric video footage paired with gaze and head tracking data, delivering a distinctive viewpoint into the visual experiences of human observers. The dataset includes 717 recording sessions, with data sourced from 58 observers aged 6 to 49 years old. VEDB intends to invite the global research community to utilize and contribute to this resource by releasing it alongside comprehensive metadata and supporting code, thereby fostering a more robust understanding of visual perception and behavior in naturalistic environments. The dataset finds broad application across multiple fields, including advancing gaze tracking methodologies, evaluating spatiotemporal image statistics, and optimizing deep neural networks for scene and activity recognition.

提供机构：

哥伦比亚大学巴纳德学院

创建时间：

2024-02-15

搜集汇总

数据集介绍

构建方式

在视觉科学领域，理解人类视觉系统的运作机制离不开对真实世界视觉体验的量化分析。Visual Experience Dataset (VEDB) 的构建正是为了填补这一空白，它通过集成头戴式设备，系统性地采集了来自58名年龄跨度6至49岁参与者的717段第一人称视角视频。数据采集过程严谨，结合了Pupil-Labs眼动仪、高分辨率全局快门世界相机以及Intel RealSense T265追踪相机，同步记录眼动、头部运动里程计和惯性测量数据。为确保数据的代表性与多样性，参与者自主选择日常活动进行记录，涵盖了室内外环境、静态与动态行为，并依据美国时间使用调查对活动类别进行了广泛采样。所有数据均经过时间戳同步、h264压缩处理，并辅以详细的场景与任务人工标注，构建了一个总时长超过240小时、多模态同步的自然视觉体验数据库。

特点

该数据集的核心特点在于其前所未有的多模态同步与生态效度。它首次大规模整合了第一人称视频、高精度眼动追踪数据以及头部运动里程计信息，为研究自然状态下视觉注意与行为耦合提供了坚实基础。数据覆盖了广泛的日常活动与场景，包括124类Places数据库中的环境类别和396种任务动词，有效避免了传统互联网图像数据集的地理、视角与社会经济偏差。此外，数据集提供了精细的时间标注与经过验证的注视点数据，其中168个会话的注视误差低于2度视觉角，适用于对精度要求较高的眼动研究。为保护参与者隐私，数据集对人脸进行了高斯模糊处理，并以开放科学平台托管，确保了数据的可访问性与伦理合规性。

使用方法

VEDB为视觉生态学、计算视觉与认知科学等多个领域提供了丰富的研究资源。在自然场景统计研究中，研究者可结合世界相机视频与头部运动数据，分析时空图像统计特性，或构建以注视点为中心的视网膜中心视频序列。对于眼动与注意研究，已验证的注视数据可用于探究日常任务中的注视行为模式，或开发对光照、种族等因素鲁棒的新型眼动追踪算法。在计算机视觉领域，精细标注的场景与任务信息可用于训练和评估第一人称视角下的活动识别与场景理解模型，尤其有助于纠正现有模型在私人场景中的识别偏差。数据集所有组件均通过Databrary和Open Science Framework公开，并附有完整的数据采集、处理与分析代码库，支持研究者进行跨模态数据的联合分析与方法验证。

背景与挑战

背景概述

视觉经验数据集（VEDB）由美国国家科学基金会资助，于2020年至2023年间由哥伦比亚大学、贝茨学院、北达科他州立大学和内华达大学里诺分校等机构的研究团队联合创建。该数据集旨在解决视觉科学领域长期存在的核心问题：如何全面量化人类在自然环境中动态视觉经验的统计特性。通过整合超过240小时的第一人称视角视频、眼动追踪数据和头部运动信息，VEDB为研究视觉生态学、具身认知与感知机制提供了前所未有的实证基础。其跨年龄、跨场景的多样化样本设计，显著推动了从静态图像分析向动态视觉经验建模的范式转变，对计算机视觉、认知神经科学及人机交互等领域产生了深远影响。

当前挑战

在解决视觉经验动态建模这一领域问题时，VEDB面临多重挑战：首先，现有数据集多基于静态图像或受限环境，难以捕捉真实世界中时空维度上的视觉统计规律；其次，数据采集需平衡生态效度与隐私伦理，例如在自然活动中保护参与者及旁观者的身份信息。构建过程中的技术挑战尤为突出：为适应户外多变光照与剧烈运动，研究团队需定制多版本头戴设备并优化传感器配置；眼动校准在动态环境中易受光线干扰，导致部分数据丢失或误差增大；此外，海量多模态数据的同步采集、压缩存储及标准化处理亦对硬件与算法提出了极高要求。

常用场景

经典使用场景

在视觉科学领域，理解人类在自然环境中如何整合视觉、眼动和头部运动信息是核心议题。Visual Experience Dataset (VEDB) 通过提供超过240小时的第一人称视频、眼动追踪和头部运动数据，为研究自然场景下的视觉体验统计特性提供了经典范例。该数据集最典型的应用场景在于分析日常活动中眼动与头部运动的协调模式，例如在行走、烹饪或休闲等多样化任务中，研究者能够精确量化注视点分布、视觉搜索策略以及环境动态对注意力的影响，从而揭示视觉行为在真实世界中的组织原则。

解决学术问题

VEDB 致力于解决视觉感知研究中长期存在的关键问题，特别是自然场景统计的时空特性表征不足以及现有数据集的偏差局限。传统研究多依赖于静态图像或受限环境下的眼动数据，难以捕捉动态视觉体验的全貌。该数据集通过同步记录自我运动与外部物体运动，为探究视觉系统如何利用时空冗余性进行高效感知提供了实证基础。其意义在于突破了实验室环境的束缚，使得研究者能够检验视觉生态学理论，并为理解视觉系统的适应性机制提供了丰富的数据支持，推动了视觉科学向更自然主义范式的转变。

衍生相关工作

VEDB 的发布催生了一系列前沿研究，尤其在跨模态感知建模与算法优化方面产生了深远影响。基于该数据集，研究者开展了对自然场景中时空图像统计的深入分析，探索了头部运动与视觉前庭整合的神经机制。在计算机视觉领域，衍生工作包括利用自我中心视频与眼动数据改进活动识别系统，以及开发对光照和种族多样性更具鲁棒性的视线估计方法。这些工作不仅拓展了视觉生态学的实证边界，也为可穿戴计算和机器人感知提供了新的技术路径，体现了数据集在连接基础科学与工程应用间的桥梁作用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集