EMMT
收藏github2023-03-08 更新2024-05-31 收录
下载链接:
https://github.com/ufal/eyetracked-multi-modal-translation
下载链接
链接失效反馈官方服务:
资源简介:
EMMT是一个包含单眼眼动记录、音频数据和4电极可穿戴脑电图(EEG)数据的数据集,记录了43名参与者在进行视觉翻译任务时的数据,该任务由图像支持。
EMMT is a dataset comprising monocular eye movement recordings, audio data, and 4-electrode wearable electroencephalogram (EEG) data, capturing data from 43 participants engaged in a visual translation task supported by images.
创建时间:
2021-12-22
原始信息汇总
数据集概述
数据集名称
- Eyetracked Multi-Modal Translation (EMMT)
数据集内容
- 数据类型: 包含单眼眼球运动记录、音频数据和4电极可穿戴脑电图(EEG)数据。
- 参与者数量: 43名参与者。
- 任务: 参与者在图像支持下进行视觉翻译任务。
实验设计
- 实验阶段:
- 朗读英文句子。
- 将其翻译成捷克语。
- 观察与句子相关或不相关的图像。
- 产生相同或新的翻译。
- 数据记录: 眼球追踪(凝视)、EEG和音频。
- 刺激数量: 每个参与者处理32个刺激,共使用20个探针。
- EEG数据: 包含28名参与者的数据。
数据集结构
- 文件夹结构:
EMMT/probes/: 包含原始记录,每个探针目录下有四种文件类型。images/: 包含与刺激相关的图像。preprocessed-data/: 包含预处理后的数据,分为四个阶段。
文件命名规则
- 文件名格式:
P<participant_id>-<order_of_presentation>-S<sentence_id>-<cond>-<cong>-i<image_id>.<file_type><participant_id>: 参与者唯一ID。<order_of_presentation>: 刺激呈现的实际顺序。<sentence_id>: 英文句子的唯一ID。<cond>: 文本刺激的条件(模糊或明确)。<cong>: 文本与视觉刺激的符合性(一致、不一致或缺失)。<image_id>: 图像的ID。
预处理数据
- 存储位置:
preprocessed-data/ - 内容: 参与者产生的翻译,手动转录并存储在简单的制表符分隔的纯文本文件中。
作者
- Sunit Bhattacharya
- Věra Kloudová
- Vilém Zouhar
- Ondřej Bojar
搜集汇总
数据集介绍

构建方式
EMMT数据集的构建基于多模态实验设计,旨在捕捉参与者在视觉翻译任务中的多维度反应。实验过程中,43名参与者被要求完成四个阶段的输入处理:朗读英文句子、翻译成捷克语、观察与句子相关或不相关的图像,并生成相同或新的翻译。实验记录了三种数据:单眼眼动追踪、四电极可穿戴脑电图(EEG)以及音频数据。每个参与者面对32个刺激物,共20组刺激物,数据以文件夹结构组织,包含原始数据与预处理数据。
特点
EMMT数据集的特点在于其多模态数据的丰富性,涵盖了眼动追踪、脑电图和音频数据,为研究多模态阅读与翻译场景提供了全面的实验数据支持。数据集包含43名参与者的眼动和音频数据,其中28名参与者的脑电图数据也被记录。数据集的刺激物设计考虑了句子与图像的关联性,分为相关、不相关和缺失图像三种条件,进一步增强了数据的多样性和研究价值。
使用方法
EMMT数据集的使用方法主要围绕其多模态数据的分析与应用展开。用户可通过数据集提供的文件夹结构访问原始数据与预处理数据。原始数据包含眼动、脑电图和音频文件,预处理数据则按实验的四个阶段分类存储。用户可结合实验设计文件(如Participants.csv和Sentences.csv)进行数据分析,探索多模态翻译任务中的认知过程与行为反应。预处理数据的文件格式详细说明可在preprocessed-data/README.md中查阅。
背景与挑战
背景概述
EMMT(Eyetracked Multi-Modal Translation)数据集由Sunit Bhattacharya等人于2022年发布,旨在研究多模态阅读与翻译场景下的认知过程。该数据集包含了43名参与者在进行图像支持的视译任务时的单眼眼动记录、音频数据以及4电极可穿戴脑电图(EEG)数据。研究团队通过实验设计,捕捉了参与者在阅读英语句子、翻译成捷克语、观察相关或不相关图像以及重新翻译过程中的多模态数据。EMMT数据集的发布为认知科学、神经科学和机器翻译领域提供了宝贵的研究资源,尤其是在多模态数据处理和认知负荷分析方面具有重要的学术价值。
当前挑战
EMMT数据集在解决多模态翻译任务中的认知过程分析方面面临多重挑战。首先,如何有效整合眼动、EEG和音频数据以全面反映参与者的认知状态是一个复杂的问题。其次,数据采集过程中,EEG数据的缺失(仅28名参与者有完整数据)限制了数据集的完整性和分析深度。此外,实验设计中的随机刺激顺序和图像与文本的匹配关系增加了数据处理的复杂性。在构建过程中,研究团队还需克服多模态数据同步、数据清洗和标注的技术难题,以确保数据的准确性和可用性。这些挑战不仅影响了数据集的构建,也为后续研究提出了更高的技术要求。
常用场景
经典使用场景
EMMT数据集在认知科学和自然语言处理领域中被广泛用于研究多模态信息处理机制。通过结合眼动追踪、脑电图(EEG)和音频数据,研究者能够深入分析人类在进行视觉翻译任务时的认知过程。这种多模态数据的整合为理解语言处理中的注意力分配、记忆检索和决策制定提供了独特的视角。
实际应用
在实际应用中,EMMT数据集为开发基于多模态数据的翻译辅助系统提供了重要参考。通过分析眼动和脑电波数据,可以设计出更符合人类认知习惯的翻译工具,提升翻译效率和准确性。此外,该数据集还可用于教育领域,帮助语言学习者通过多模态反馈改进翻译技能。
衍生相关工作
EMMT数据集衍生了一系列经典研究工作,特别是在多模态翻译和认知科学领域。例如,基于该数据集的研究揭示了Stroop效应在多模态翻译中的表现,进一步探讨了视觉和语言信息整合的机制。此外,该数据集还被用于开发新的多模态数据处理算法,推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成



