EyEar-20k

Name: EyEar-20k
Creator: 中国人民大学
Published: 2025-02-28 17:01:30
License: 暂无描述

arXiv2025-02-28 更新2025-03-04 收录

下载链接：

https://github.com/XiaochuanLiu-ruc/EyEar

下载链接

链接失效反馈

官方服务：

资源简介：

EyEar-20k数据集是由中国人民大学收集的，包含8名受试者在观看图片并同步听取相应音频剪辑时的20,000个注视点。该数据集旨在模拟真实世界场景中人类视觉轨迹受音频信号影响的情况，具有比现有数据集更长的平均注视序列长度和持续时间，对于学习长距离的人类视觉轨迹更具挑战性和价值。

The EyEar-20k dataset was collected by Renmin University of China. It contains 20,000 gaze points from 8 subjects who viewed images while simultaneously listening to corresponding audio clips. This dataset aims to simulate real-world scenarios where human visual trajectories are affected by audio signals. Compared with existing datasets, it features longer average gaze sequence length and duration, making it more challenging and valuable for learning long-range human visual trajectories.

提供机构：

中国人民大学

创建时间：

2025-02-28

原始信息汇总

EyEar 数据集概述

数据集名称

EyEar

数据集描述

用于支持 AAAI 2025 论文 "EyEar: Learning Audio Synchronized Human Gaze Trajectory based on Physics-informed Dynamics" 的官方代码库。

作者信息

作者：Xiaochuan Liu, Xin Cheng, Yuchong Sun, Xiaoxue Wu, Ruihua Song, Hao Sun, Denghao Zhang

相关论文

论文标题：EyEar: Learning Audio Synchronized Human Gaze Trajectory based on Physics-informed Dynamics
会议：AAAI 2025
链接：未提供

搜集汇总

数据集介绍

构建方式

EyEar-20k数据集的构建过程涉及对8名受试者在观看图像并同步收听音频片段时的注视轨迹进行追踪。研究人员选择了Unsplash.com网站上高质量、具有视觉吸引力的图像，并设计了音频叙述，以引导受试者的注意力。叙述文本结合了自动生成和人工润色，确保了文本的准确性和多样性。受试者在没有任何明确指示的情况下观看图像并收听音频，以模拟日常生活中的自然注视轨迹。通过眼动追踪设备收集到的注视轨迹数据，构成了包含20,000个注视点的EyEar-20k数据集。

使用方法

使用EyEar-20k数据集时，研究人员可以利用其中的注视轨迹数据来训练和评估预测人类注视轨迹的模型。由于数据集包含同步音频输入，它特别适合用于研究人类在多模态刺激下的注视行为。研究人员可以利用EyEar框架，该框架基于物理信息动力学，并考虑了三种影响注视运动的关键因素：眼睛固有的运动趋势、视觉显著性吸引力和音频语义吸引力。此外，EyEar框架还提出了概率密度评分，以克服注视轨迹的高个体变异性，从而提高优化的稳定性和评估的可靠性。通过使用EyEar-20k数据集，研究人员可以探索和改进多模态注视轨迹预测模型，以更好地模拟人类的注视行为。

背景与挑战

背景概述

EyEar-20k数据集是由中国人民大学高瓴人工智能学院和心理学系的联合研究团队于2025年创建的。该数据集的创建旨在填补现有研究在预测人类视线轨迹方面的空白，特别是在视觉场景中同步音频输入的情况下。人类在日常生活中往往会根据听觉信号移动视线，而不仅仅是视觉刺激。EyEar-20k数据集包含了来自8个受试者的20k个视线点，这些数据是在受试者观看图像并同时听音频片段时，使用眼动追踪设备记录下来的。该数据集的平均视线序列长度和持续时间比现有数据集要长，这使其对于学习长距离的人类视线轨迹更具挑战性和价值。EyEar-20k数据集的创建为视觉理解、人机交互和心理学等领域的研究提供了宝贵的资源，推动了虚拟角色构建等下游应用的发展。

当前挑战

EyEar-20k数据集面临的主要挑战包括：1) 如何在多模态场景中有效地整合音频信息，并考虑眼球运动的动态物理学；2) 不同个体之间视线轨迹的高变异性，这给优化过程带来了稳定性挑战。为了解决这些挑战，研究者提出了EyEar框架，该框架基于物理信息动力学，考虑了三种影响眼球运动的关键因素：眼球内在的运动趋势、视觉显著吸引力和音频语义吸引力。此外，研究者还提出了基于混合高斯分布的概率密度评分，以克服视线轨迹的高度个体变异性，从而提高优化的稳定性和评估的可靠性。实验结果表明，EyEar在所有评估指标上均优于所有基线模型，证明了该数据集及其框架在预测人类视线轨迹方面的有效性和独特性。

常用场景

经典使用场景

EyEar-20k 数据集在模仿人类在视觉场景中移动注视点的研究中扮演了重要角色，尤其是在构建具有交互性和逼真性的虚拟角色方面。该数据集提供了与同步音频输入相对应的20k注视点，为研究人类在视觉场景中如何随着音频信号输入移动注视点提供了宝贵的资源。

解决学术问题

EyEar-20k 数据集解决了现有注视点轨迹预测任务主要集中在视觉中心场景的问题，填补了在音频同步观看场景中预测人类注视点轨迹的空白。该数据集的平均注视序列长度和持续时间比现有数据集更长，使得学习长距离人类注视点轨迹更具挑战性和价值。

实际应用

EyEar-20k 数据集的实际应用场景包括虚拟角色构建、人机交互、心理学研究等。通过分析人类在音频同步观看场景中的注视点轨迹，可以更好地理解人类的行为模式，从而提高虚拟角色的交互性和逼真性，为心理学研究提供新的视角。

数据集最近研究