EEG-semantic-text-relevance

Hugging Face2024-10-02 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Quoron/EEG-semantic-text-relevance

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含23,270个时间锁定（0.7秒）的单词级EEG记录，这些记录来自参与者阅读与自选主题相关和不相关的文本。数据集的特征包括事件、单词、主题、选定主题、语义相关性、有趣性、先验知识、句子编号、参与者和EEG记录。EEG记录的形状为32x2001，数据类型为float64。数据集分为训练集，包含23270个样本。数据集可用于文本分类和标记分类任务，语言为英语，样本数量在10K到100K之间。

This dataset comprises 23,270 word-level EEG recordings time-locked to 0.7 seconds, collected from participants reading texts either related or unrelated to their self-selected topics. The features included in this dataset are events, words, topics, selected topics, semantic relevance, interestingness, prior knowledge, sentence number, participant information, and EEG recordings. The EEG recordings have a shape of 32×2001 and a data type of float64. This dataset is split into a training set containing 23,270 samples. It can be used for text classification and token classification tasks, is based on English-language texts, and has a sample size ranging between 10K and 100K.

创建时间：

2024-10-02

原始信息汇总

EEG-semantic-text-relevance 数据集概述

数据集信息

许可证: Apache 2.0
配置名称: data
特征:
- event: 事件的时间点，表示单词呈现的开始，数据类型为 int64。
- word: 参与者阅读的单词，数据类型为 string。
- topic: 单词所属文档的主题，数据类型为 string。
- selected_topic: 参与者选择的主题，数据类型为 string。
- semantic_relevance: 单词与参与者选择主题的语义相关性，1 表示相关，0 表示不相关，数据类型为 int64。
- interestingness: 参与者对文档主题的兴趣程度，数据类型为 int64。
- pre-knowledge: 参与者对文档主题的先验知识，数据类型为 int64。
- sentence_number: 单词所属的句子编号，数据类型为 int64。
- participant: 参与者标识，数据类型为 string。
- eeg: 脑电图记录，形状为 32 x 2001，数据类型为 float64。
分割:
- train: 训练集，包含 23,270 个样本，大小为 11,925,180,913 字节。
下载大小: 11,927,979,870 字节
数据集大小: 11,925,180,913 字节

配置

配置名称: data
- 数据文件:
  - train: 路径为 data/train-*
- 默认配置: 是

任务类别

文本分类
标记分类

语言

英语

数据集规模

10K < n < 100K

数据集描述

该数据集包含 23,270 个时间锁定（0.7秒）的单词级 EEG 记录，这些记录来自阅读与自选主题语义相关和不相关文本的参与者。

变量解释

event: 事件的时间点，表示单词呈现的开始。
word: 参与者阅读的单词。
topic: 单词所属文档的主题。
selected_topic: 参与者选择的主题。
semantic_relevance: 单词与参与者选择主题的语义相关性。
interestingness: 参与者对文档主题的兴趣程度。
pre-knowledge: 参与者对文档主题的先验知识。
sentence_number: 单词所属的句子编号。
eeg: 脑电图记录，形状为 32 x 2001。

数据集使用示例

python import numpy as np from datasets import load_dataset

加载数据集

d = load_dataset("Quoron/EEG-semantic-text-relevance", "data")

查看数据集结构

print(d)

获取数据集中的第一个条目

first_entry = d[train][0]

获取第一个条目中的 EEG 数据

eeg = np.array(first_entry[eeg])

获取第一个条目中的单词

word = first_entry[word]

搜集汇总

数据集介绍

构建方式

EEG-semantic-text-relevance数据集通过记录参与者在阅读与自选主题相关或不相关的文本时的脑电图（EEG）信号构建而成。数据采集过程中，参与者阅读的每个单词均与特定时间点的事件锁定，时间窗口为0.7秒。每个单词的EEG信号以32通道、2001个时间点的形式记录，并结合了语义相关性、兴趣度、先验知识等多维度标注信息。数据集的构建旨在探索语义处理与脑电活动之间的关系。

特点

该数据集包含23,270个单词级别的EEG记录，每个记录均包含32通道、2001个时间点的高维脑电数据。数据集不仅提供了单词的语义相关性标注（1表示相关，0表示不相关），还涵盖了参与者的兴趣度、先验知识等主观评价信息。此外，每个单词所属的句子编号、文档主题以及参与者自选主题的标注进一步丰富了数据的多维度特性，使其成为研究语义处理与脑电活动关联的理想资源。

使用方法

用户可通过Hugging Face的`datasets`库加载EEG-semantic-text-relevance数据集，并使用Python进行数据探索与分析。加载后，数据集以字典形式呈现，包含训练集的所有记录。每条记录包含单词、EEG信号、语义相关性等字段，EEG信号可通过NumPy转换为数组形式以便进一步处理。建议结合Croissant元数据工具进行数据探索，以充分利用其多维特性。

背景与挑战

背景概述

EEG-semantic-text-relevance数据集是一个专注于脑电图（EEG）与语义文本相关性研究的新型数据集，发布于2025年ICLR会议。该数据集由研究人员在参与者阅读与自选主题相关或不相关的文本时，采集了23,270个时间锁定的单词级脑电图记录。数据集的核心研究问题在于探索大脑在处理语义相关与无关文本时的神经活动差异，旨在揭示语言理解与认知过程中的神经机制。该数据集为神经科学、自然语言处理以及认知心理学领域的交叉研究提供了宝贵资源，推动了脑机接口与语义分析技术的进一步发展。

当前挑战

EEG-semantic-text-relevance数据集在构建与应用中面临多重挑战。首先，脑电图数据的采集与处理具有高度复杂性，需确保数据的时间锁定精度与信号质量，以准确反映语义处理的神经活动。其次，语义相关性的标注依赖于参与者的主观判断，可能引入个体差异与偏差，影响数据的一致性与可靠性。此外，数据的高维度特性（32通道×2001时间点）对计算资源与算法效率提出了更高要求，增加了模型训练与分析的难度。最后，数据集的隐私保护与伦理问题也需谨慎处理，确保参与者的身份与敏感信息不被泄露。

常用场景

经典使用场景

在认知神经科学领域，EEG-semantic-text-relevance数据集被广泛应用于研究大脑如何处理和理解语义信息。通过分析参与者在阅读语义相关和无关文本时的脑电图（EEG）数据，研究人员能够深入探讨语义处理过程中的神经机制。该数据集特别适合用于研究语义相关性对大脑活动的影响，以及个体差异在语义处理中的作用。

衍生相关工作

基于EEG-semantic-text-relevance数据集，已有研究开发了多种语义处理模型和算法。这些工作不仅推动了认知神经科学领域的发展，还为自然语言处理和脑机接口技术提供了新的思路。例如，一些研究利用该数据集训练深度学习模型，以预测大脑对特定语义信息的反应，从而为脑机接口技术的改进提供了理论基础。

数据集最近研究