SIGNAL

github2024-11-20 更新2024-11-28 收录

下载链接：

https://github.com/AIRI-Institute/SIGNAL

下载链接

链接失效反馈

官方服务：

资源简介：

SIGNAL数据集用于语义和推断语法神经语言分析，包含600个俄语句子及其对应的64通道EEG记录。数据集包括经过精心设计的实验范式中的句子，这些句子在关键的词汇语义属性和受控的句法结构上进行了平衡。句子分为三种句法结构和四种一致性条件（语义、语法和语义-语法）。

The SIGNAL dataset is designed for semantic and inferential syntactic neuro-linguistic analysis, consisting of 600 Russian sentences paired with their corresponding 64-channel EEG recordings. The dataset includes sentences from a carefully crafted experimental paradigm, which are balanced with respect to critical lexical semantic attributes and controlled syntactic structures. The sentences are classified into three syntactic structures and four consistency conditions, namely semantic, grammatical, and semantic-grammatical.

创建时间：

2024-11-20

原始信息汇总

SIGNAL数据集概述

数据集简介

SIGNAL数据集用于语义和推断语法神经语言分析。该数据集包含600个俄语句子及其对应的64通道EEG记录，这些记录来自人类在精心设计的实验范式下阅读这些句子。

数据集结构

语义和语法结构：数据集包括三种句法结构和四种一致性条件（语义、语法和语义-语法）。
- 句法结构：
  - 主语 + 动词 + 宾语
  - 主语 + 动词 + 形容词 + 宾语
  - 主语 + 动词 + 宾语 + 属格
- 一致性条件：
  - 语义一致
  - 语义不一致
  - 语法不一致
  - 语义和语法不一致

数据生成

语义不一致句子生成： bash python break_semantics.py --input congruent_sentences.csv --output sem_inconguent.csv
语法不一致句子生成： bash python break_grammar.py --input congruent_sentences.csv --output gram_inconguent.csv

EEG分析

EEG数据：包含21名参与者的记录，揭示了刺激一致性条件在神经生理水平上的统计差异。
分析功能：
- 计算每个条件内的平均事件相关电位数据
- 计算z分数以估计一致性条件之间的成对差异
- 通过排列测试计算结果的统计显著性
- 获得对比四种一致性条件的显著时空簇
可视化：
- 可视化z分数估计
- 制作显著不同簇的地形图

LLM探查

LLM探查数据：包括探查验证研究和补充的标记化效应研究，以及基于ruBERT LLM激活的逐层条件对比算法。
分析方法：应用表示相似性分析（RDM）评估LLM检测到的12种刺激（三种句子组，每组分为四种一致性条件）之间的激活差异。
结果：随着层数的增加，区分准确性提高，较晚的层对句子结构的敏感性显著高于对一致性类型的敏感性。

搜集汇总

数据集介绍

构建方式

SIGNAL数据集的构建基于精心设计的实验范式，涵盖了600个俄语句子及其对应的64通道EEG记录。数据集中的句子经过严格控制，平衡了关键的词汇语义属性，并包含了三种句法结构和四种一致性条件（语义、语法、语义-语法）的区分。异常刺激通过语言模型生成，并通过在线验证研究进行有效性检查，确保其符合俄语母语者的识别标准。EEG数据的可靠性通过事件相关电位数据的平均值计算和z分数估计来验证，而LLM数据的解释性则通过代表性相似性分析（RDM）进行评估。

特点

SIGNAL数据集的显著特点在于其多层次的语义和句法控制，以及对神经语言学分析的全面支持。数据集不仅包含了语义和语法一致性条件的详细区分，还通过EEG记录和LLM探针实验，提供了对语言处理神经机制的深入洞察。此外，数据集的构建过程确保了刺激的可靠性和有效性，通过在线验证研究和统计显著性测试，确保了数据的高质量。

使用方法

SIGNAL数据集的使用方法包括对语义和语法不一致句子的生成与分析。通过运行`break_semantics.py`和`break_grammar.py`脚本，用户可以生成语义或语法不一致的句子。EEG数据的分析则涉及使用`z-scores_estimation.py`计算事件相关电位数据的平均值和z分数，并通过`draw_plots.py`进行可视化。LLM数据的探针实验则通过代表性相似性分析（RDM）评估不同层次的激活差异，用户可以通过替换`SIGNAL_SPREADSHEET`链接来获取相关数据。

背景与挑战

背景概述

SIGNAL数据集，全称为Semantic and Inferred Grammar Neurological Analysis of Language，是由一组研究人员精心构建的，旨在探索语言处理中的语义和语法神经机制。该数据集包含了600个俄语句子及其对应的64通道脑电图（EEG）记录，这些句子在语义和语法上具有特定的控制条件。SIGNAL数据集的创建不仅为神经语言学研究提供了宝贵的资源，还为理解人类大脑如何处理语言中的语义和语法错误提供了新的视角。通过结合EEG数据和大型语言模型（LLM）的分析，SIGNAL数据集在揭示语言处理的神经基础方面具有重要意义。

当前挑战

SIGNAL数据集在构建过程中面临了多个挑战。首先，生成语义和语法不一致的句子需要精确的控制和验证，以确保这些句子能够有效地引发预期的神经反应。其次，EEG数据的处理和分析需要高度的技术精确性，以确保从脑电图中提取的信息能够准确反映不同语义和语法条件下的神经活动差异。此外，将EEG数据与LLM的激活数据进行对比分析，以揭示模型在处理语言时的神经相似性，也是一个复杂且具有挑战性的任务。这些挑战不仅涉及技术层面的难题，还包括如何确保实验设计的科学性和结果的可靠性。

常用场景

经典使用场景

SIGNAL数据集的经典使用场景主要集中在神经语言学的研究领域。通过该数据集，研究者可以深入分析语义和语法不一致性对大脑活动的影响。具体而言，数据集包含了600个俄语句子及其对应的64通道EEG记录，这些句子被精心设计为具有不同的语法结构和一致性条件。研究者可以利用这些数据来探索大脑在处理语义和语法不一致性时的电生理反应，从而揭示语言处理过程中的神经机制。

实际应用

SIGNAL数据集在实际应用中具有广泛的前景，特别是在语言障碍诊断和治疗领域。通过分析EEG数据，医疗专业人员可以更准确地识别和评估语言障碍患者的神经活动模式，从而制定更有效的治疗方案。此外，该数据集还可用于开发和验证基于神经反馈的语言训练工具，帮助提高语言障碍患者的语言能力。

衍生相关工作

SIGNAL数据集的发布催生了一系列相关的经典研究工作。例如，研究者利用该数据集进行了大量的神经语言学分析，揭示了不同语法和语义条件下大脑活动的差异。此外，基于SIGNAL数据集的研究还推动了语言模型（如ruBERT）在神经语言学中的应用，通过对比不同层次的模型激活，研究者能够更深入地理解语言模型的内部机制及其与人类大脑活动的关联。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集