ChineseEEG-2

Name: ChineseEEG-2
Creator: 南方科技大学生物医学工程系, 澳门大学认知与脑科学中心, 南方科技大学计算机科学与工程学院, 科大讯飞股份有限公司人工智能研究院
Published: 2025-08-06 17:25:05
License: 暂无描述

arXiv2025-08-06 更新2025-08-08 收录

下载链接：

https://github.com/ncclab-sustech/ChineseEEG-2

下载链接

链接失效反馈

官方服务：

资源简介：

ChineseEEG-2是一个高密度的脑电图数据集，用于在现实世界的语言任务下评估神经解码模型。该数据集基于之前的ChineseEEG数据集，增加了两种主动模态：大声阅读（RA）和被动倾听（PL），使用了相同的中文语料库。该数据集包括脑电图信号、语音音频、来自预训练语言模型的语义嵌入和任务标签。ChineseEEG-2为跨模态神经解码研究提供了基准数据集，支持在阅读、说话和倾听模态下进行比较研究。

ChineseEEG-2 is a high-density electroencephalogram (EEG) dataset designed for evaluating neural decoding models in real-world language task scenarios. Built upon the prior ChineseEEG dataset, this updated version adds two modalities: Reading Aloud (RA) and Passive Listening (PL), while utilizing the same Chinese language corpus. This dataset includes EEG signals, speech audio, semantic embeddings derived from pre-trained language models, and task labels. ChineseEEG-2 serves as a benchmark dataset for cross-modal neural decoding research, supporting comparative studies across reading, speaking, and listening modalities.

提供机构：

南方科技大学生物医学工程系, 澳门大学认知与脑科学中心, 南方科技大学计算机科学与工程学院, 科大讯飞股份有限公司人工智能研究院

创建时间：

2025-08-06

原始信息汇总

ChineseEEG-2 数据集概述

数据集简介

ChineseEEG-2是首个支持中文阅读与听力跨模态语义对齐的高密度EEG数据集，填补了现有EEG数据集在多语言、多模态研究方面的空白。该数据集扩展了以默读为主的ChineseEEG数据集，新增了朗读和被动听力任务的数据。

核心特点

多模态同步：对齐的EEG、文本和音频时间线，支持跨模态语义研究
跨任务神经数据：包含12名参与者（4名朗读者，8名听众）的32.4小时数据
MLLM-EEG对齐：提供预计算的语义嵌入（BERT和Wav2Vec2），支持与多模态大语言模型直接比较

研究应用

跨模态语义处理：研究大脑如何整合视觉（文本）和听觉（语音）语言输入
多模态神经解码：开发结合阅读和听力神经特征的BCI系统
脑-MLLM对齐：以人类神经表征为基准评估人工语言模型

数据集结构

├── novel_segmentation/ # 文本材料处理 ├── experiment/ # 任务实现 ├── data_preprocessing/ # EEG处理流程 ├── text_and_audio_embeddings/ # 多模态嵌入 └── analysis/ # 神经解码工具

设备信息

EEG设备：EGI Geodesic EEG 400系列
通道数：128通道（GSN-HydroCel-128导联系统）
采样率：朗读任务250Hz，被动听力任务1000Hz

实验设置

参与者设置：坐姿，屏幕距离约67cm
显示器规格：1920×1080分辨率，60Hz刷新率
任务类型：
- 朗读任务（RA）
- 被动听力任务（PL）

数据预处理流程

数据分段
降采样
带通滤波
坏道插值
独立成分分析
重参考

分析方法

主体间相关性分析（ISC）
源重建分析（使用MNE-Python）

多模态嵌入

文本嵌入：整篇小说.npy文件
音频嵌入：按章节分割的.npy文件

数据访问

存储位置：Science Data Bank
DOI：10.57760/sciencedb.CHNNeuro.00001

贡献者

主要开发者：Chen Sitong, He Cuilin等
合作机构：南方科技大学、澳门大学等

搜集汇总

数据集介绍

构建方式

ChineseEEG-2数据集的构建采用了多模态同步采集策略，通过高密度128通道脑电设备记录参与者在朗读和被动听音任务中的神经活动。朗读任务中，四名受试者以0.25秒/字符的标准化速率阅读中文文学选段，同步采集EEG信号与语音音频；听音任务则将这些录音作为刺激材料，由八名受试者在视觉定标条件下完成神经响应记录。实验材料选自《小王子》中文版与《狼王梦》节选，通过章节级分段实现时序对齐，并采用硬件触发与字符级时间戳双重同步机制，确保跨模态数据的毫秒级时间精度。

特点

该数据集的核心价值在于其三重对齐特性：神经信号与语言刺激的时序对齐、跨朗读与听音模态的语义对齐、以及脑电特征与预训练语言模型嵌入的空间对齐。作为首个大规模中文多模态脑电基准，它包含32.4小时高质量数据，涵盖原始EEG、滤波信号、语音波形及BERT/Wav2Vec2生成的语义嵌入。独特的实验设计使同一文本内容在三种处理模态（默读、朗读、听音）下形成对照，为研究语言处理的跨模态神经表征提供了理想范式。数据集严格遵循EEG-BIDS标准组织，包含详细的预处理流水线与质量验证指标，确保研究可重复性。

使用方法

研究者可通过ScienceDB平台获取标准化的BIDS格式数据，利用配套的Python工具包实现端到端分析。预处理模块支持灵活的参数配置，包括ICA去噪、频带滤波（1-40Hz）及坏道插值。针对跨模态分析需求，数据集提供基于字符onset的时序对齐接口，支持将EEG信号与语言模型嵌入进行毫秒级映射。源代码库包含从刺激材料分割、实验范式复现到源定位分析的完整流程，特别适配MNE-Python生态。典型应用场景包括：开发朗读-听音模态转换算法、验证脑电信号与LLM语义空间的耦合强度、以及构建基于多模态对齐的神经解码模型。

背景与挑战

背景概述

ChineseEEG-2是由南方科技大学、澳门大学等机构的研究团队于2025年发布的跨模态脑电数据集，旨在解决中文语言神经解码领域的核心问题。该数据集作为ChineseEEG的扩展版本，创新性地整合了朗读（RA）和被动聆听（PL）两种主动模态，采用《小王子》和《狼王梦》作为标准化语料，共采集12名参与者32.4小时的高密度128通道EEG信号。其核心价值在于首次实现了中文语境下阅读、说话与听觉模态的细粒度语义对齐，为探索大脑与多模态大语言模型（MLLM）的语义表征映射提供了关键基础设施。该数据集通过严格的跨被试相关分析和源定位验证，显著推动了非英语脑机接口研究的发展，被广泛应用于跨模态神经解码、脑-MLLM对齐等前沿方向。

当前挑战

ChineseEEG-2面临的挑战主要体现在领域问题和构建过程两个维度。在领域层面，需解决中文连续语言处理中神经表征的动态编码难题，包括跨模态语义对齐的时间精度要求（需匹配250Hz采样率下的字符级时间锁相）、以及普通话声调特性对神经解码模型的特殊挑战。构建过程中，团队需克服多模态同步采集的技术瓶颈，如朗读时发声肌肉伪迹对EEG信号的污染，以及音频播放与神经响应的毫秒级触发对齐。此外，中文表意文字系统相较于拼音文字更复杂的神经表征模式，要求数据集必须提供比英语同类资源更丰富的语境信息和语义标注层级。这些挑战使得数据预处理流程需集成独立成分分析、球形样条插值等先进技术，最终形成符合BIDS标准的规范化数据集。

常用场景

经典使用场景

ChineseEEG-2数据集在神经解码和脑机接口研究中具有重要应用价值。该数据集通过记录阅读、朗读和被动听三种语言任务下的高密度脑电图信号，为研究者提供了跨模态语义对齐的基准数据。在经典使用场景中，研究者可利用该数据集探索大脑如何处理不同语言模态下的语义信息，例如比较朗读和听同一文本时神经活动的异同。数据集的时间精度和语义对齐特性使其特别适合用于开发新型神经解码算法，尤其是针对汉语的脑信号解码模型。

实际应用

在实际应用层面，ChineseEEG-2数据集为开发新型脑机接口系统提供了重要支持。基于该数据集训练的神经解码模型可应用于语言障碍患者的辅助交流设备开发，如帮助失语症患者通过脑信号实现语言输出。数据集的跨模态特性也为开发多模态人机交互系统提供了可能，例如实现脑信号驱动的语音合成或文本生成系统。此外，该数据集还可用于教育领域，研究不同语言学习方式对大脑表征的影响，优化语言教学方法。

衍生相关工作

ChineseEEG-2数据集已衍生出多个重要研究方向。在神经解码方面，基于该数据集的工作探索了跨模态迁移学习在脑信号解码中的应用。在脑机接口领域，研究者利用该数据集开发了新型的端到端神经解码架构。数据集还促进了脑信号与大型语言模型对齐的研究，如开发基于BERT等预训练模型的神经语义解码方法。这些工作不仅推动了基础研究的发展，也为临床应用提供了技术储备。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集