WebQAmGaze

arXiv2024-03-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2303.17876v3

下载链接

链接失效反馈

官方服务：

资源简介：

WebQAmGaze是一个多语言的低成本阅读时眼动追踪数据集，设计为首个基于网络摄像头的阅读眼动追踪语料库，旨在支持可解释的计算语言处理模型的发展。该数据集包含了来自600名不同年龄段参与者在自然阅读英语、德语、西班牙语和土耳其语文本时的网络摄像头眼动追踪数据。每位参与者完成两个阅读任务，每个任务包含五篇文章，一个是正常阅读，另一个是信息寻求任务，随后是理解问题。

WebQAmGaze is a multilingual, low-cost eye-tracking dataset for reading. It is designed as the first webcam-based reading eye-tracking corpus, aiming to support the development of interpretable computational language processing models. This dataset contains webcam-based eye-tracking data collected from 600 participants across different age groups while they naturally read texts in English, German, Spanish, and Turkish. Each participant completed two reading tasks, each consisting of five articles: one for normal reading, and the other for an information-seeking task, followed by comprehension questions.

创建时间：

2023-03-31

搜集汇总

数据集介绍

构建方式

在眼动追踪与自然语言处理的交叉领域，WebQAmGaze数据集通过创新的众包范式构建而成。该数据集整合了亚马逊机械土耳其和Cognition平台，利用开源库jsPsych与WebGazer实现了大规模远程眼动数据采集。研究团队精心选取了来自XQuAD和MECO语料库的多语言文本，涵盖英语、德语、西班牙语和土耳其语四种语言，并设计了正常阅读与信息搜寻两种实验范式。数据收集过程中，通过九点校准与五点验证机制确保眼动追踪质量，最终从600名参与者中筛选出353份高质量数据，形成了首个基于网络摄像头的多语言阅读眼动语料库。

特点

WebQAmGaze数据集的核心特征体现在其多模态与多任务设计上。该数据集不仅提供了原始眼动轨迹与预处理后的注视点数据，还包含了词级和段落级的兴趣区域标注。其独特之处在于同时收录了正常阅读与信息搜寻两种认知模式下的眼动模式，为研究任务驱动的阅读行为提供了对比基础。数据集中眼动指标与商业眼动仪采集的高质量数据呈现中度至强相关性，验证了网络摄像头眼动追踪在捕捉词汇长度效应等经典阅读规律方面的有效性。此外，数据集参与者年龄分布广泛，屏幕分辨率多样，增强了其在生态效度方面的代表性。

使用方法

该数据集为可解释性自然语言处理模型的研究提供了新的实验平台。研究者可通过提取注视次数、总阅读时间、目标区域注视比率等眼动指标，构建基于随机森林等机器学习模型的答案正确性预测系统。在信息搜寻任务中，眼动特征能有效区分回答正误，为自动提取人类认知依据提供了数据支撑。同时，数据集支持与BERT等预训练语言模型的注意力机制进行对齐分析，探索眼动模式与计算模型注意力权重的认知关联。跨语言眼动模式的比较研究也可基于该数据集展开，为多语言阅读认知建模提供实证依据。

背景与挑战

背景概述

WebQAmGaze数据集由哥本哈根大学与苏黎世大学的研究团队于2024年创建，旨在通过低成本网络摄像头采集多语言阅读眼动数据，以支持可解释自然语言处理模型的发展。该数据集聚焦于探索人类在正常阅读与信息搜寻任务中的认知过程，通过整合英语、德语、西班牙语和土耳其语四种语言的文本材料，结合大规模众包实验设计，首次实现了基于网络摄像头的自然阅读眼动追踪。其核心研究问题在于验证低成本眼动数据能否有效反映语言理解中的认知信号，并为机器阅读模型提供人类注意力机制的认知偏差，从而推动可解释人工智能在问答系统等领域的应用。

当前挑战

WebQAmGaze面临的挑战主要体现在两方面：在领域问题层面，数据集致力于解决可解释自然语言处理中人类注意力建模的难题，尤其是如何将眼动数据转化为机器可理解的认知特征，以提升问答模型的透明性与解释力；在构建过程中，挑战包括网络摄像头眼动数据的质量波动，如采样率低、校准精度受限以及头部运动干扰，同时众包实验环境难以控制参与者专注度与设备异构性，导致数据过滤比例较高。此外，多语言文本的语义一致性与标注跨度模糊性也为数据有效性带来了额外复杂性。

常用场景

经典使用场景

在自然语言处理与认知科学的交叉领域，WebQAmGaze数据集为研究者提供了一个独特的多语言阅读眼动分析平台。该数据集通过网页摄像头采集了600名参与者在自然阅读和信息搜寻任务中的眼动轨迹，覆盖英语、德语、西班牙语和土耳其语四种语言文本。其经典应用场景在于探究不同阅读任务下人类注意力分配的认知机制，例如比较正常阅读与信息搜寻阅读中注视时长、回视模式等眼动指标的差异，为构建更符合人类认知规律的计算模型提供实证基础。

衍生相关工作

基于WebQAmGaze数据集衍生的经典研究主要沿着两个方向展开：在方法论层面，研究者借鉴其网页摄像头校准与眼动事件检测流程，开发了更稳健的低成本眼动采集框架，如改进的视线估计算法与跨设备适配方案。在应用模型层面，该数据集启发了多项将眼动特征融入神经语言模型的工作，例如将注视时长作为注意力权重的认知约束引入BERT等Transformer架构，提升了问答系统对关键文本片段的敏感性。这些衍生工作进一步推动了认知启发式自然语言处理模型的发展，形成了从数据采集到模型优化的完整研究链条。

数据集最近研究