MEG-MASC

Name: MEG-MASC
Creator: 纽约大学阿布扎比分校
Published: 2022-07-27 03:17:01
License: 暂无描述

arXiv2022-07-27 更新2024-06-21 收录

下载链接：

https://osf.io/ag3kj/

下载链接

链接失效反馈

官方服务：

资源简介：

MEG-MASC数据集由纽约大学阿布扎比分校创建，包含27名英语母语者的磁脑电图（MEG）记录，这些参与者听取了两小时自然故事。数据集中的每个参与者进行了两次相同的会话，听取四篇虚构故事，并穿插随机单词列表和理解问题。数据集按照脑成像数据结构（BIDS）组织，提供了详细的元数据，包括每个单词和音素的起始和结束时间。MEG-MASC数据集适用于大规模的编码和解码分析，旨在研究大脑对语言的自然响应，特别是在语音特征和单词频率的时序解码方面。

The MEG-MASC dataset was created by New York University Abu Dhabi, and contains magnetoencephalography (MEG) recordings from 27 native English speakers who listened to two hours of naturalistic stories. Each participant in the dataset completed two identical sessions, during which they listened to four fictional stories interspersed with lists of random words and comprehension questions. The dataset is organized in accordance with the Brain Imaging Data Structure (BIDS) standard, and provides detailed metadata including the onset and offset times of each word and phoneme. The MEG-MASC dataset is suitable for large-scale encoding and decoding analyses, and aims to investigate the brain's natural responses to language, particularly in the temporal decoding of speech features and word frequencies.

提供机构：

纽约大学阿布扎比分校

创建时间：

2022-07-27

搜集汇总

数据集介绍

构建方式

在脑磁图研究领域，自然语言处理范式的兴起促使研究者构建更贴近真实语言环境的神经影像数据集。MEG-MASC数据集的构建过程严谨而系统，招募了27名以英语为母语的成年参与者，在静息状态下通过双耳耳机聆听总计约两小时的虚构故事音频。这些故事选自开放美国国家语料库的手动标注子集，并利用文本转语音技术合成为音频，通过变换合成人声与语速以解耦语言与声学表征。实验过程中穿插随机单词列表与理解性问题，确保参与者保持注意力。所有脑磁图数据均以原始形式采集，并严格遵循脑成像数据结构标准进行组织，同时为每个单词和音素标注了精确的时间戳。

特点

该数据集的核心特点在于其高质量与丰富注释。作为当前公开领域中首个提供长时间自然故事聆听的脑磁图数据集，它涵盖了多个会话记录，确保了数据的可重复性与稳健性。数据集不仅包含原始的脑磁图信号，还提供了完整的音频、文本及其对齐信息，特别是对每个音素和单词进行了107种语音特征的详细标注。这种多层次、多模态的数据结构为研究者探究语言处理的神经机制提供了前所未有的细粒度分析基础。数据遵循BIDS标准组织，极大促进了数据的可共享性与可复现性。

使用方法

利用MEG-MASC数据集进行研究，通常始于使用MNE-BIDS等专用工具包读取标准化的脑成像数据。研究者可依据标注信息，轻松提取与特定语言事件（如单词或音素出现时刻）对应的神经活动时间序列。数据集支持大规模的编码与解码分析范式，例如，可训练线性模型来解码单词频率或音素特征，从而量化大脑对语言信息的表征。配套提供的Python代码示例，能够复现论文中的验证分析，为方法学探索提供起点。所有刺激材料与注释均以Pandas DataFrame格式提供，便于进行高效的数据整合与统计分析。

背景与挑战

背景概述

在神经语言学领域，理解大脑如何处理自然语言一直是核心科学难题。传统实验设计常采用高度控制的因子范式，虽揭示了语言神经基础，但因其非自然刺激特性，难以捕捉真实语境下的语言加工机制。为弥补此局限，自然主义研究范式应运而生，通过连续语音或文本刺激，更贴近日常语言处理过程。在此背景下，MEG-MASC数据集于近年由纽约大学阿布扎比分校等机构的研究团队创建，旨在提供高质量脑磁图记录，以评估自然语音处理。该数据集收录了27名英语母语者在聆听两小时自然故事时的MEG信号，并严格遵循脑成像数据标准结构进行组织，为大规模时间分辨的神经编码与解码分析奠定了基准。

当前挑战

MEG-MASC数据集致力于解决自然语音神经表征的领域挑战，即如何在复杂、连续的语音流中，精准分离并建模大脑对语音、音素及词汇等层次特征的动态响应。这一过程需克服语言特征间的高度相关性，并区分声学与语言信息的神经表征。在构建过程中，团队面临多重技术挑战：首先，MEG信号易受环境与生理噪声干扰，需开发有效的预处理流程以确保数据质量；其次，为保持生态效度，需精心设计自然故事刺激，并通过变异语音与语速来解耦声学与语言特征；此外，数据标注需精确对齐音频、音素与词汇时间戳，并整合多模态信息，其标准化与可复现性要求推动了BIDS格式的采用，为后续分析提供了结构化基础。

常用场景

经典使用场景

在认知神经科学领域，MEG-MASC数据集为研究自然语言处理的神经机制提供了关键资源。该数据集通过记录受试者在聆听连续故事时的脑磁图信号，支持大规模编码与解码分析，经典应用场景包括探索大脑对语音中音素、词汇频率及语义特征的动态响应。研究者利用其高时间分辨率特性，能够精确追踪语言理解过程中神经活动的时序演变，揭示听觉皮层对自然语音的层级化处理模式。

实际应用

该数据集的实际应用延伸至脑机接口与临床神经科学领域。基于其标注精细的语音-神经响应对齐数据，研究人员可开发更精准的神经解码算法，用于辅助通信设备或听觉障碍康复工具。同时，MEG-MASC为病理语言处理研究提供了对照基准，有助于识别失语症等疾病中神经编码的异常模式，推动个性化神经干预策略的设计与评估。

衍生相关工作

MEG-MASC数据集催生了多项经典研究工作，特别是在深度神经网络与脑活动映射的交叉领域。学者利用该数据验证了预训练语言模型（如GPT-2）的神经预测能力，探究了语音处理中层级预测的神经动力学。衍生研究还包括对音素序列编码的时序分析、词汇 surprisal 的神经表征建模，以及句法与语义神经枢纽的分离，这些成果显著深化了对语言网络计算层次的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集