Eyetracked Multi-Modal Translation (EMMT) corpus

Name: Eyetracked Multi-Modal Translation (EMMT) corpus
Creator: 查尔斯大学形式与应用语言学研究所
Published: 2022-04-06 23:47:55
License: 暂无描述

arXiv2022-04-06 更新2024-07-24 收录

下载链接：

https://osf.io/hxymj/

下载链接

链接失效反馈

官方服务：

资源简介：

EMMT数据集由查尔斯大学形式与应用语言学研究所创建，包含43名参与者的单眼眼球运动记录、音频和4电极脑电图（EEG）数据。数据集旨在收集参与者在多种语言密集任务中的认知信号，涉及不同文本-图像刺激设置下的英译捷任务。每个参与者接触32对文本-图像刺激，并执行阅读、翻译、咨询图像和再次翻译等任务。数据集包含200个独特句子，616个独特单词和200个独特图像。创建过程涉及从多个公开可用数据集中选择和校正句子，确保数据的质量和适用性。该数据集适用于翻译过程研究、认知科学等领域的研究，旨在通过比较人类和机器的认知处理方式，深入理解多模态翻译过程。

The EMMT Dataset was created by the Institute of Formal and Applied Linguistics, Charles University. It contains monocular eye movement recordings, audio data, and 4-channel electroencephalogram (EEG) data from 43 participants. This dataset aims to collect cognitive signals from participants during various language-intensive tasks, involving English-to-Czech translation tasks under different text-image stimulus settings. Each participant was exposed to 32 pairs of text-image stimuli and performed tasks including reading, translation, image consultation, and re-translation. The dataset includes 200 unique sentences, 616 unique words, and 200 unique images. The dataset creation process involved selecting and revising sentences from multiple publicly available datasets to ensure data quality and applicability. This dataset is applicable to research in fields such as translation process studies and cognitive science, aiming to gain in-depth insights into multimodal translation processes by comparing the cognitive processing modes of humans and machines.

提供机构：

查尔斯大学形式与应用语言学研究所

创建时间：

2022-04-06

搜集汇总

数据集介绍

构建方式

在认知科学与翻译过程研究的交叉领域，EMMT语料库的构建采用了严谨的多模态实验设计。该数据集通过精心设计的四阶段任务流程收集数据：参与者首先阅读英文句子，随后进行捷克语翻译，接着观察相关图像，最后根据视觉信息决定是否更新翻译。实验材料选自三个公开多模态语料库，包含200个独特句子及其对应图像，并依据语义模糊性分为明确与模糊两类，图像则细分为语义一致、不一致及缺失三种条件。数据采集历时两周，使用EyeLink 1000 Plus眼动仪与Muse 2脑电设备，同步记录43名捷克母语者的单眼眼动、四通道脑电及音频信号，所有流程均遵循伦理规范并完成数据匿名化处理。

特点

EMMT语料库的突出特点在于其多维认知信号的同步采集能力。数据集不仅涵盖传统的眼动轨迹与音频记录，更创新性地整合了四电极便携式脑电设备采集的神经活动数据，为研究语言处理中的认知负荷与神经机制提供了独特视角。实验设计巧妙融合了文本模糊性与图像语义一致性变量，通过200个句子与600种刺激条件的组合，构建出能够系统考察多模态交互影响的观测框架。参与者群体具有显著多样性，涵盖不同英语熟练度水平与专业翻译经验背景，使得数据能够反映个体认知策略的差异。所有数据均以事件时间戳对齐，支持跨模态关联分析。

使用方法

该数据集适用于多模态翻译认知机制的探索性研究。使用者可通过解析事件时间戳文件，将眼动、脑电与音频数据精确对齐到实验的四个阶段，进而分析不同刺激条件下认知资源的分配模式。眼动数据可用于计算注视热点图与扫视路径，揭示文本与图像区域的注意力分布；脑电信号支持事件相关电位分析，探究语义整合与歧义消解的神经时程特征；音频记录则能辅助评估翻译流畅度与修正策略。研究者可依据句子模糊性分类与图像类型筛选数据子集，比较专业译者与业余参与者的认知模式差异。数据集采用分层文件结构存储，建议通过预处理提取关键特征并转换为二进制格式以提升访问效率。

背景与挑战

背景概述

随着人工智能的迅猛发展，自然语言处理领域取得了显著进步，尤其是在神经机器翻译方面已接近人类专业水平。然而，互联网与新媒体的兴起使得多模态文本日益普及，传统翻译研究局限于纯文本，缺乏对图文结合场景下认知过程的系统理解。在此背景下，查理大学形式与应用语言学研究所的Sunit Bhattacharya、Věra Kloudová、Vilém Zouhar与Ondřej Bojar于近期创建了Eyetracked Multi-Modal Translation (EMMT)语料库，旨在通过同步采集眼动、脑电图与音频数据，探究人类在翻译多模态文本时的认知机制。该数据集包含43名参与者的实验记录，覆盖了从英语到捷克语的翻译任务，为翻译过程研究、认知科学及多模态机器翻译提供了宝贵的跨学科资源。

当前挑战

EMMT语料库致力于解决多模态翻译中的核心挑战，即理解人类在图文结合环境下进行语言转换时的认知负荷与决策过程。具体而言，该数据集需应对翻译研究中如何量化歧义句子与图像一致性对认知信号影响的难题，以及如何将人类行为数据与机器处理模式进行有效对比。在构建过程中，研究团队面临多重挑战：首先，实验设计需平衡刺激材料的多样性，包括从公开数据集中筛选200个句子并匹配三种图像条件，同时确保句子的语法正确性与歧义标注的可靠性；其次，多模态数据同步采集技术要求高，需整合眼动仪、便携式脑电设备与音频记录，并在两周内协调43名参与者完成实验，保证数据质量与一致性；此外，数据处理涉及大规模原始信号的匿名化、分段与存储，需克服文件管理效率与格式兼容性问题，以支持后续研究的高效访问与分析。

常用场景

经典使用场景

在认知科学与翻译过程研究领域，EMMT语料库的经典使用场景聚焦于探索多模态环境下的人类翻译认知机制。通过结合眼动追踪、脑电图与音频数据，该数据集为研究者提供了分析翻译过程中注意力分配、认知负荷与神经响应的多维视角。例如，在歧义句翻译任务中，研究者可借助眼动热图揭示译者如何通过视觉线索整合信息，从而深化对多模态文本处理策略的理解。

衍生相关工作

该数据集已衍生出多项跨学科经典研究，例如结合脑电事件相关电位分析翻译歧义处理的神经基础，或利用眼动序列建模多模态阅读的认知路径。部分工作进一步将人类认知模式与神经网络表征对齐，探索机器翻译模型是否模拟了人类的跨模态整合机制。这些研究不仅深化了多模态认知的理论框架，也为可解释人工智能在语言处理领域的应用开辟了新路径。

数据集最近研究