synapse-set-100k

Hugging Face2025-05-03 更新2025-05-04 收录

下载链接：

https://huggingface.co/datasets/NextGenC/synapse-set-100k

下载链接

链接失效反馈

官方服务：

资源简介：

SynapseSet-100K是一个合成的指令微调数据集，旨在模拟用于自然语言模型的基于EEG的神经状态解释。每个样本都反映了带有上下文元数据的脑信号度量，以及专家风格的医学NLP解释。该数据集由7enn Labs生成，目的是将神经信号解释与指令微调的NLP系统联系起来。

创建时间：

2025-05-01

原始信息汇总

SynapseSet-100K 数据集概述

基本信息

名称: SynapseSet-100K
类型: 合成指令调优数据集
用途: 模拟基于EEG的神经状态解释，用于自然语言模型
语言: 英语
标签: BCI, EEG, 脑机接口, 神经科学, 信号处理, NLP, 指令调优, 合成数据
许可证: MIT
规模: 10K<n<100K

数据集内容

格式: JSON
每样本包含:
- instruction: 模型任务描述
- input: EEG信号指标与患者元数据
- output: 模拟临床解释

关键特性

容量: 100,000个示例
神经学条件: 50+
EEG频带: 5个基础频带 + 11个子频带
数据格式: 6种类型（增强版）
真实度: 临床级
患者建模: 全面的医学档案
伪影建模: 12+种类型

版本对比

特性	SynapseSet-10K	SynapseSet-50K	SynapseSet-100K
示例容量	10,000	50,000	100,000
语言	土耳其语	英语	英语
神经学条件	16	25+	50+
EEG频带	5基础频带	5基础+6子频带	5基础+11子频带
数据格式	4种	6种	6种（增强）
真实度	基础	中级	临床级
患者建模	简单	高级	全面
伪影建模	无	基础	全面（12+种）

免责声明

100%合成数据，非临床数据
严格用于学术和研究用途
不得用于临床决策或诊断
使用风险自负

引用

bibtex @misc{7ennlabs2025synapseset, author = {7enn Labs}, title = {SynapseSet-100K: Synthetic Instruction Dataset for EEG Interpretation}, year = {2025}, url = {https://huggingface.co/datasets/NextGenC/synapse-set-100k}, note = {100% synthetic dataset for BCI/NLP research} }

创建者

7enn Labs

搜集汇总

数据集介绍

构建方式

SynapseSet-100K数据集通过先进的算法模拟生成，旨在为脑机接口和自然语言处理研究提供高质量的合成数据。该数据集由7enn Labs开发，采用专有数据引擎生成，包含10万条模拟脑电图（EEG）信号及其对应的临床解释。每条数据均包含指令、输入（EEG信号及患者元数据）和输出（模拟的临床解释），数据生成过程严格遵循临床标准，确保数据的科学性和一致性。

特点

SynapseSet-100K数据集以其高容量和多样性著称，包含10万条数据，覆盖50种以上神经学状态和11种EEG子波段。数据集采用临床级真实度，模拟了12种以上信号伪影，并提供了全面的患者医疗背景信息。其语言为英语，风格中立且符合临床表述规范，适合用于指令微调和文本生成任务。与早期版本相比，该数据集在信号复杂性、患者建模和伪影模拟方面均有显著提升。

使用方法

该数据集适用于脑机接口和自然语言处理的交叉研究，特别是EEG信号解释任务。用户可通过Hugging Face的datasets库直接加载数据，每条样本包含指令、输入和输出三个字段。研究人员可利用这些数据训练或评估模型在神经信号解释方面的能力。使用时应明确声明数据为合成生成，并避免将其用于临床决策。数据集采用MIT许可证，允许学术和商业用途，但使用者需自行承担风险。

背景与挑战

背景概述

SynapseSet-100K是由7enn Labs于2025年推出的合成指令调优数据集，旨在模拟基于脑电图（EEG）的神经状态解释，以促进自然语言处理模型在神经科学信号解析领域的发展。该数据集通过算法生成，包含脑电信号指标与上下文元数据，并配以专家风格的医学自然语言解释，致力于搭建神经科学与指令调优NLP系统之间的桥梁。作为一项非临床数据，SynapseSet-100K为学术研究提供了丰富的资源，尤其在脑机接口（BCI）和神经信号处理领域具有重要价值。

当前挑战

SynapseSet-100K面临的挑战主要包括两方面：其一，在领域问题层面，如何准确地将复杂的EEG信号转化为自然语言解释仍是一个开放性问题，尤其是在模拟多样化神经状态时，确保解释的临床合理性与一致性具有较高难度；其二，在数据构建过程中，生成具有临床级真实度的合成数据需要精细的算法设计，以覆盖广泛的神经学条件和EEG子波段，同时还需模拟多种伪迹和患者特征，这对数据引擎的鲁棒性和可扩展性提出了严峻考验。

常用场景

经典使用场景

在脑机接口（BCI）与自然语言处理（NLP）的交叉领域研究中，SynapseSet-100K数据集被广泛应用于模拟脑电图（EEG）信号的语义解析任务。研究者通过该数据集训练模型，使其能够将复杂的神经电生理数据转化为临床风格的文本描述，为神经科学领域的自动化诊断系统开发提供了标准化测试平台。

解决学术问题

该数据集有效解决了神经信号与自然语言模态转换的核心挑战，填补了真实临床数据获取困难造成的科研空白。通过合成数据引擎生成的多样化样本，研究者能够系统性探索EEG特征与认知状态映射关系的建模方法，显著推进了基于指令微调的神经解码算法发展。

衍生相关工作

基于该数据集衍生的经典研究包括《NeuroLingua：跨模态神经语言生成框架》等突破性工作，这些成果通过迁移学习策略将合成数据的知识迁移至真实场景。7enn Labs后续发布的SynapseSet-XL系列进一步扩展了多语言神经解码能力，形成了完整的脑电-语言基准测试体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集