synapse-set-50k
收藏SynapseSet-50K 数据集概述
基本信息
- 名称: SynapseSet-50K: EEG Interpretation Dataset
- 类型: 合成数据
- 语言: 英语
- 标签: BCI, EEG, 脑机接口, 神经科学, 信号处理, NLP, 指令调优, 合成数据
- 许可: MIT
- 大小: 10K<n<100K
- 任务类别: 文本生成, 文本到文本生成
数据集描述
- 目的: 为自然语言模型模拟基于EEG的神经状态解释。
- 特点: 每个样本包含脑信号指标与上下文元数据,以及专家风格的医学NLP解释。
- 生成方: 7enn Labs
- 免责声明: 100%合成数据,非临床数据,仅供学术和研究使用。
数据集格式
- instruction: 模型的任务描述
- input: 带有患者元数据的EEG信号指标
- output: 模拟的临床解释
json { "instruction": "Interpret the given EEG values for a patient and explain their mental state.", "input": "Patient: ID#A7421 | Age: 38 | Date: 2024-10-12 | EEG: Alpha=9.8Hz, Beta=17.2Hz, Theta=4.1Hz, Delta=2.0Hz, Gamma=29.5Hz | Voltage=0.72mV", "output": "The EEG profile is consistent with relaxed wakefulness. Alpha wave dominance (9.8Hz) suggests the patient is in a calm, eyes-closed resting state. No signs of seizure activity or abnormal slowing are present." }
特征比较
| 特征 | SynapseSet-10K | SynapseSet-50K | SynapseSet-100K |
|---|---|---|---|
| 示例容量 | 10,000 | 50,000 | 100,000 |
| 语言 | 土耳其语 | 英语 | 英语 |
| 神经学条件 | 16 | 25+ | 50+ |
| EEG频段 | 5基础频段 | 5基础+6子频段 | 5基础+11子频段 |
| 数据格式 | 4种 | 6种 | 6种(增强) |
| 真实度水平 | 基础 | 中级 | 临床级 |
| 患者建模 | 简单 | 高级 | 全面医学档案 |
| 伪影建模 | 无 | 基础 | 全面(12+种) |
许可与伦理
- 许可: MIT
- 要求: 必须明确披露合成数据的使用
- 禁止: 不得用于临床决策
- 风险: 使用风险自负,不提供任何保证
引用
bibtex @misc{7ennlabs2025synapseset, author = {7enn Labs}, title = {SynapseSet-50K: Synthetic Instruction Dataset for EEG Interpretation}, year = {2025}, url = {https://huggingface.co/datasets/NextGenC/synapse-set-50k}, note = {100% synthetic dataset for BCI/NLP research} }
示例用法
python from datasets import load_dataset
dataset = load_dataset("DATASET_FILE_NAME") print(dataset["train"][0])
创建者
7enn Labs




