Sherlock Holmes MEG情感标注数据集
收藏arXiv2026-01-27 更新2026-01-28 收录
下载链接:
http://dx.doi.org/10.5281/zenodo.22558
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由牛津大学PNPL团队创建,是基于《福尔摩斯探案集》有声书脑磁图(MEG)记录的情感标注神经影像数据集。包含3名受试者共30小时的MEG数据,通过预训练文本情感模型对语音转录文本进行标注,并利用强制对齐技术将情感标签与脑活动时序对齐。数据集采用自然停顿划分文本片段,选用CardiffNLP模型进行情感概率标注,最终形成包含中性(85.05%)、积极(6.75%)和消极(8.20%)三类标签的脑电-情感映射数据。该数据集为探索大脑情感解码提供了首个MEG基准,支持训练脑电到情感的端到端模型,在神经语言学和人机交互领域具有重要价值。
This dataset was created by the PNPL Research Team at the University of Oxford. It is an emotion-annotated neuroimaging dataset derived from magnetoencephalography (MEG) recordings of audiobooks adapted from *The Adventures of Sherlock Holmes*. The dataset includes 30 hours of MEG data collected from 3 participants. Emotion labels were assigned to the speech transcripts using a pre-trained text emotion model, and the emotional tags were aligned with the temporal sequences of brain activity through forced alignment technology. The dataset segments text using natural pauses, and the CardiffNLP model was utilized for emotion probability annotation, ultimately generating MEG-emotion mapping data with three label categories: neutral (85.05%), positive (6.75%), and negative (8.20%). As the first MEG benchmark for exploring brain emotion decoding, this dataset enables the training of end-to-end models that map neural activity to emotional states, and holds important research value in the fields of neurolinguistics and human-computer interaction.
提供机构:
牛津大学; 鲍登学院
创建时间:
2026-01-27
搜集汇总
数据集介绍

构建方式
在神经影像学与自然语言处理的交叉领域,Sherlock Holmes MEG情感标注数据集的构建体现了创新性方法。该数据集以现有的MEG脑磁图数据为基础,这些数据记录了三位受试者聆听《福尔摩斯探案集》有声读物时的神经活动。研究团队采用预训练的情感分析模型,对与音频对齐的文本转录进行情感标注,通过强制对齐技术将文本中的自然停顿作为短语分割点,进而将情感标签与MEG记录的时间点精确对应。这一流程避免了因转录差异和标点缺失带来的对齐困难,为脑信号与情感语义的关联研究提供了结构化标注。
特点
该数据集的核心特点在于其首次为MEG脑磁图数据提供了系统化的情感标注,填补了神经影像数据在情感分析领域的空白。数据集标注基于CardiffNLP预训练模型,该模型在人类标注相关性测试中表现出最优的一致性,确保了标签的可靠性。数据涵盖中性、积极与消极三类情感,并以概率形式呈现,降低了分类任务的难度。此外,数据按80%、10%、10%的比例划分为训练、验证与测试集,并配有随机种子,支持可重复的实验研究。
使用方法
该数据集主要用于训练从脑信号到情感的预测模型,为脑机接口与情感解码研究提供资源。使用者可加载MEG传感器数据与对应情感标签,构建如MLP或LSTM等深度学习架构进行回归或分类任务。输入数据维度为时间序列与通道数的组合,输出为目标情感的概率分布。评估时可采用准确率与平衡准确率指标,并以多数类比例与随机猜测为基线进行对比。数据集的划分支持模型训练与验证,有助于探索大脑活动与情感处理之间的神经机制。
背景与挑战
背景概述
Sherlock Holmes MEG情感标注数据集由牛津大学PNPL实验室与鲍登学院的研究人员于2026年创建,旨在填补神经影像数据中情感标注的空白。该数据集基于参与者聆听《福尔摩斯探案集》有声书时采集的脑磁图(MEG)数据,通过预训练文本情感分析模型对转录文本进行情感标注,进而构建脑活动与情感之间的映射关系。其核心研究问题聚焦于从非侵入性脑活动中解码情感信息,为脑机接口与情感计算领域提供了新颖的数据资源,推动了自然范式下神经解码研究的发展。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,情感解码需克服脑信号信噪比低、个体差异显著以及情感类别模糊性等固有难题,同时模型易受类别不平衡影响,偏向预测中性类别;在构建过程中,挑战包括转录文本缺乏标点导致的短语分割困难、不同转录版本间的对齐误差,以及依赖预训练情感模型可能引入的标注噪声,这些因素共同增加了数据标注与模型训练的复杂性。
常用场景
经典使用场景
在神经科学与自然语言处理的交叉领域,Sherlock Holmes MEG情感标注数据集为探索大脑如何编码情感信息提供了独特资源。该数据集通过将脑磁图记录与预训练情感分析模型生成的标签对齐,使研究人员能够训练模型直接从大脑活动中解码情感状态。这一经典使用场景聚焦于验证脑到情感的映射关系,为理解情感处理的神经机制开辟了新途径。
解决学术问题
该数据集填补了神经影像数据缺乏情感标注的空白,解决了如何客观标注大脑情感响应的关键问题。通过利用文本到情感模型对脑磁图数据进行标注,研究者能够系统研究大脑对中性、积极和消极刺激的差异化处理模式。这不仅推动了情感神经科学的发展,也为脑机接口中情感解码技术的进步提供了实证基础。
衍生相关工作
该数据集催生了多项探索大脑情感解码的经典研究,例如基于循环神经网络的脑到情感预测模型架构优化工作。后续研究扩展了情感标签的粒度,引入了更丰富的情感维度分析,并尝试结合多模态神经影像数据提升解码精度。这些衍生工作深化了对情感神经表征的理解,推动了深度学习在神经科学中的应用边界。
以上内容由遇见数据集搜集并总结生成



