RefCOCO-Gaze

github2024-07-15 更新2024-07-24 收录

下载链接：

https://github.com/cvlab-stonybrook/refcoco-gaze

下载链接

链接失效反馈

官方服务：

资源简介：

RefCOCO-Gaze是一个大规模的语音驱动人类眼球运动数据集，参与者在看到图像并听到定义场景中物体的引用表达（例如，左后方穿黑色衣服的家伙）时进行眼球运动记录。该数据集包含19,738个人类眼球扫描路径，对应2,094个独特的图像-表达对，来自220名参与者执行物体引用任务。RefCOCO-Gaze旨在推动人类眼球预测研究，超越简单的视觉任务（如自由观看或搜索），进入更自然和生态有效的使用语言的上下文。

RefCOCO-Gaze is a large-scale speech-driven human eye movement dataset. Participants record their eye movements while viewing images and hearing referring expressions that define objects in the scene, such as "the guy in black clothing at the back left". This dataset contains 19,738 human eye scan paths, corresponding to 2,094 unique image-expression pairs, collected from 220 participants performing object referring tasks. RefCOCO-Gaze aims to advance human gaze prediction research by moving beyond simple visual tasks (e.g., free viewing or visual search) into more natural and ecologically valid contexts that involve language use.

创建时间：

2024-07-09

原始信息汇总

RefCOCO-Gaze 数据集

简介

RefCOCO-Gaze 是一个大规模的语音驱动人类眼球运动数据集，参与者在看到图像并听到定义场景中对象的引用表达（例如，后面左边穿黑色衣服的人）时记录眼球运动。该数据集包含 19,738 个人类眼球扫描路径，对应 2,094 个唯一的图像-表达对，来自 220 名参与者执行对象引用任务。

目标

RefCOCO-Gaze 旨在推动人类眼球运动预测的研究，超越简单的视觉任务（如自由观看或搜索），进入更自然和生态有效的使用语言的上下文。我们希望这个数据集能够促进计算模型的开发，预测和解释口语如何引导人类的注意力控制。

数据组成

RefCOCO-Gaze 数据集包括 19,738 个扫描路径，这些路径是在 220 名参与者观看 2,094 张 COCO 图像并听取相关的引用表达时记录的。眼球数据由 EyeLink 1000 眼动仪记录，包括每个注视的位置和持续时间、搜索目标的边界框、引用表达的音频记录、目标词的时间以及口语和注视序列之间的同步（告诉我们哪个词触发了哪些注视）。

下载链接

图像刺激（.zip；尺寸：1680x1050）下载
声音文件（.zip）下载
词开始时间（.json）下载
训练眼球数据集（.json）下载
验证眼球数据集（.json）下载
测试眼球数据集（暂不可用）

引用

如果您使用 RefCOCO-Gaze 数据集，请引用以下文献：

@InProceedings{Mondal_2024_ECCV, author = {Mondal, Sounak and Ahn, Seoyoung and Yang, Zhibo and Balasubramanian, Niranjan and Samaras, Dimitris and Zelinsky, Gregory and Hoai, Minh}, title = {Look Hear: Gaze Prediction for Speech-directed Human Attention}, booktitle = {European Conference on Computer Vision (ECCV)}, year = {2024} }

搜集汇总

数据集介绍

构建方式

RefCOCO-Gaze数据集的构建基于大规模的实验室环境，通过EyeLink 1000眼动仪记录了220名参与者在观看2,094张COCO图像并听取相关指代表达时的眼动轨迹。该数据集包含19,738条眼动扫描路径，每条路径详细记录了注视点的位置、持续时间、目标对象的边界框、指代表达的音频记录、目标词的出现时间以及语音与注视序列的同步信息。这些数据经过精心整理，旨在捕捉语言与视觉信息在人类注意力控制中的复杂交互。

使用方法

使用RefCOCO-Gaze数据集时，研究者可以下载包含图像刺激、音频文件、词出现时间、训练和验证眼动数据的压缩包。这些数据可用于训练和验证预测人类注视行为的模型，特别是在语音引导的注意力控制方面。数据集的详细信息和使用指南可在提供的链接中获取。为确保学术诚信，使用该数据集的研究应引用相关文献，以支持该领域的进一步研究和发展。

背景与挑战

背景概述

RefCOCO-Gaze数据集由Sounak Mondal等研究人员于2024年创建，旨在推动人类注视预测领域的研究。该数据集包含了19,738条人类注视路径，对应于2,094个独特的图像-表达对，由220名参与者在实验室环境中完成对象指称任务时记录。RefCOCO-Gaze的核心研究问题是如何通过语言指导人类在自然多模态环境中的注视行为。这一数据集不仅丰富了视觉与语言整合的研究，还为开发能够预测人类注视行为的计算模型提供了宝贵的资源，从而推动人机交互系统的发展。

当前挑战

RefCOCO-Gaze数据集在构建过程中面临多项挑战。首先，如何准确记录和同步语言表达与注视路径的时间关系，确保数据的精确性和可靠性。其次，数据集需要涵盖广泛的视觉和语言复杂性，以确保模型的泛化能力。此外，数据集的规模和多样性要求高效的存储和处理技术。最后，为了促进研究的可重复性和公平性，数据集的测试部分被暂时移除，以便建立在线基准测试，这为数据集的使用和评估带来了新的挑战。

常用场景

经典使用场景

在人机交互（HCI）领域，RefCOCO-Gaze数据集的经典使用场景主要集中在预测和解释人类在听到描述性语言时如何引导其视觉注意力的动态变化。通过分析19,738条人类注视路径，研究人员可以构建模型，模拟语言如何影响视觉搜索行为，特别是在复杂的视觉和语言交互环境中。这种研究不仅有助于理解人类如何整合视觉和语言信息，还为开发能够预测用户注视点的智能系统提供了基础。

解决学术问题

RefCOCO-Gaze数据集解决了在人机交互和认知科学领域中长期存在的关于语言如何引导视觉注意力的学术问题。通过提供大量高质量的注视数据和相应的语言描述，该数据集使得研究人员能够深入探讨语言和视觉信息的整合机制。这不仅推动了认知模型的进步，还为开发更自然、更有效的多模态交互系统提供了理论支持。

实际应用

在实际应用中，RefCOCO-Gaze数据集为开发智能辅助系统提供了宝贵的资源。例如，在虚拟现实（VR）和增强现实（AR）环境中，系统可以通过分析用户的注视路径和听到的语言描述，更准确地预测用户的意图和需求，从而提供个性化的交互体验。此外，该数据集还可用于训练自动驾驶系统中的视觉注意力模型，提升其在复杂环境中的反应能力。

数据集最近研究