arc-aphasia-bids

Hugging Face2025-12-14 更新2025-12-15 收录

下载链接：

https://huggingface.co/datasets/hugging-science/arc-aphasia-bids

下载链接

链接失效反馈

官方服务：

资源简介：

失语症恢复队列（ARC）是一个大规模、纵向的多模态神经影像数据集，包含230名慢性中风失语症患者的多模态MRI扫描数据。该数据集提供了BIDS格式的数据，包括T1加权、T2加权、FLAIR结构扫描、BOLD fMRI（命名任务和静息状态）、扩散加权成像（DWI）等。数据集还包含专家绘制的病变掩码和临床元数据，如年龄、性别、种族、WAB-AQ评分等。该数据集支持多种任务，如病变分割、失语症严重程度预测、失语症类型分类等。数据集已去标识化和去面部化，符合HIPAA指南。

Aphasia Recovery Cohort (ARC) is a large-scale, longitudinal multi-modal neuroimaging dataset comprising multi-modal MRI scans from 230 patients with chronic stroke-induced aphasia. The dataset is provided in BIDS format, including T1-weighted, T2-weighted, FLAIR structural scans, BOLD fMRI (including naming task and resting-state), diffusion-weighted imaging (DWI), and other modalities. It also contains expert-drawn lesion masks and clinical metadata such as age, gender, race, WAB-AQ scores, and more. This dataset supports multiple downstream tasks including lesion segmentation, aphasia severity prediction, and aphasia subtype classification. The dataset has been de-identified and defaced, and complies with HIPAA guidelines.

创建时间：

2025-12-03

原始信息汇总

Aphasia Recovery Cohort (ARC) 数据集概述

数据集基本信息

数据集名称：Aphasia Recovery Cohort (ARC)
主要用途：用于卒中后失语症研究的多模态神经影像数据集。
数据格式：BIDS格式，包含嵌入式NIfTI文件。
许可协议：CC0 1.0（公共领域）。
语言：英语（临床元数据和文档）。

数据规模与内容

受试者：230名慢性卒中失语症患者。
扫描会话：902次。
影像模态与数量：
- T1加权扫描：441个会话（每个会话恰好一次扫描）。
- T2加权扫描：439个会话（每个会话恰好一次扫描）。
- FLAIR扫描：231个会话（每个会话恰好一次扫描）。
- BOLD fMRI（命名任务）：750个会话（894次运行）。
- BOLD fMRI（静息态）：498个会话（508次运行）。
- 弥散成像（DWI）：613个会话（2，089次运行）。
- 单波段参考图像：88个会话（322次运行）。
- 专家绘制的病灶掩膜：228个。

支持的任务

病灶分割
失语症严重程度预测（回归任务）
失语症类型分类
纵向分析
弥散分析
任务态fMRI分析

数据集结构

数据实例

每个数据行代表一个扫描会话（受试者+时间点），包含以下字段：

subject_id：受试者标识符。
session_id：会话标识符。
结构影像：t1w， t2w， flair（可为空）。
功能影像：bold_naming40， bold_rest。
弥散影像：dwi， dwi_bvals， dwi_bvecs。
参考影像：sbref。
病灶标注：lesion（可为空）。
临床元数据：age_at_stroke， sex， race， wab_aq， wab_days， wab_type。

数据划分

训练集：包含全部902个会话。未预设训练/验证/测试划分，使用者需自行划分，并确保不同划分间无受试者重叠。

数据来源与标注

原始来源：数据收集于南卡罗来纳大学和南卡罗来纳医科大学。
公开来源：OpenNeuro ds004884 (https://openneuro.org/datasets/ds004884)。
相关论文：Gibson et al., Scientific Data 2024 (https://doi.org/10.1038/s41597-024-03819-7)。
标注：病灶掩膜由神经影像专家在T1加权或FLAIR图像上手动勾画。

隐私与伦理考虑

数据已根据HIPAA指南进行去标识化处理。
结构MRI图像已进行去面部处理。
不包含受保护的健康信息。
所有参与者均同意公开数据共享。

使用注意事项

已知偏差

地理偏差：数据主要来自美国东南部的医疗中心。
年龄偏差：卒中主要影响老年人，儿科病例代表性不足。
严重程度偏差：由于知情同意要求，极严重失语症病例可能代表性不足。

已知局限性

并非所有会话都包含全部模态数据。
228/230名受试者有病灶掩膜。
受试者的纵向随访次数不同（1-12次会话）。

技术说明

多运行模态以列表形式提供，空列表表示该会话无此数据。
弥散成像数据包含对齐的梯度信息（dwi_bvals， dwi_bvecs）。
NIfTI文件按需加载，适合大规模流式处理。

版本更新

v2 (2025年12月)：将bold列拆分为bold_naming40和bold_rest；新增dwi_bvals， dwi_bvecs， race， wab_days， t2w_acquisition列。
v1 (2025年12月)：初始发布，包含13个列。

引用信息

如需引用，请使用README中提供的BibTeX条目。

搜集汇总

数据集介绍

构建方式

在神经影像学领域，针对卒中后失语症的研究长期受限于公开多模态数据的稀缺性。Aphasia Recovery Cohort (ARC) 数据集通过系统性地整合来自南卡罗来纳大学等机构的临床资源，构建了一个包含230名慢性卒中失语患者的大规模纵向神经影像数据库。其构建严格遵循BIDS标准，确保了数据的规范性与可复现性。数据采集涵盖了多时间点的T1加权、T2加权、FLAIR结构像，以及任务态与静息态功能磁共振成像和扩散加权成像，并由神经影像专家依据标准协议手动勾画了病灶分割掩膜，为后续分析提供了可靠的黄金标准。

特点

该数据集的核心特点在于其丰富的多模态与纵向维度。它不仅提供了高分辨率的脑结构影像，还包含了用于语言功能研究的命名任务态fMRI、静息态fMRI以及完整的扩散成像数据及其梯度信息，支持从脑结构、功能连接到白质纤维束的多层次分析。数据集附带了详细的临床元数据，包括西方失语症成套测验的失语商、失语类型分类及人口统计学信息，实现了影像特征与行为学指标的精准关联。此外，数据以CC0协议完全公开，并经过专业的去标识化与面部擦除处理，兼顾了科学研究的深度与伦理合规性。

使用方法

研究者可通过Hugging Face的`datasets`库直接加载该BIDS格式数据集，利用Python环境便捷地访问内嵌的NIfTI影像文件与相关元数据。数据加载支持按需读取，便于进行大规模处理。典型应用包括：利用专家标注的病灶掩膜训练或评估自动病灶分割模型；结合失语商分数构建回归模型以预测失语症严重程度；基于失语类型标签进行分类任务研究；利用多时间点数据建模语言功能恢复轨迹。使用中需注意数据分割需由用户自行定义，并确保训练集与测试集之间不存在被试重叠，以保障评估的有效性。

背景与挑战

背景概述

脑卒中后失语症是神经科学领域的重要研究课题，涉及大脑语言网络的损伤与重塑。为应对该领域大规模、多模态神经影像数据匮乏的挑战，南卡罗来纳大学等机构的研究团队于2024年发布了失语症恢复队列数据集。该数据集收录了230名慢性卒中失语症患者的纵向多模态磁共振成像数据，旨在支持病变分割、失语症严重程度预测及语言恢复轨迹建模等核心研究。作为遵循BIDS标准的开放资源，它显著推动了计算神经科学与临床失语症研究的交叉融合，为开发自动化评估工具和理解脑可塑性机制提供了关键数据基础。

当前挑战

该数据集致力于解决失语症神经影像分析中的若干关键挑战：在领域问题层面，失语症亚型分类与严重程度预测依赖于高维、异质的神经影像特征提取，而病变形态的多样性与个体大脑解剖变异增加了模型泛化难度；纵向数据虽蕴含恢复动态信息，但不同时间点的模态缺失与扫描参数差异为轨迹建模带来复杂性。在构建过程中，研究团队面临多中心数据协调、专家手工标注病变掩模的耗时性，以及确保数据匿名化同时保留科研效用的平衡挑战。此外，数据的地理与人口分布偏差也可能影响模型在不同人群中的适用性。

常用场景

经典使用场景

在神经科学与临床医学交叉领域，卒中后失语症的神经影像学研究长期受限于高质量、多模态数据集的匮乏。ARC失语症恢复队列数据集以其大规模纵向设计，为研究者提供了经典的应用场景：通过整合T1/T2加权结构磁共振、功能磁共振（包括命名任务与静息态）以及弥散加权成像，该数据集支持对慢性卒中患者脑损伤与语言功能恢复轨迹的深入探索。研究者可利用专家标注的病灶掩模，训练自动化病灶分割模型，并结合西方失语症成套测验评分，构建失语症严重程度的预测框架，从而系统揭示脑可塑性在语言康复中的神经机制。

实际应用

超越基础研究，ARC数据集在临床转化与医疗技术开发中展现出显著价值。其数据可直接用于训练辅助诊断工具，实现基于磁共振影像的失语症严重程度自动评估，减轻临床医师负担。在康复医学领域，该数据集支持的脑连接组学分析有助于识别预测康复效果的关键神经标志物，从而优化康复干预方案。此外，数据集遵循BIDS标准且完全开源，极大降低了研究门槛，促进了全球范围内卒中康复研究的协作与算法复现，加速了神经影像学生物标志物向临床实践的过渡。

衍生相关工作

自发布以来，ARC数据集已催生了一系列重要的衍生研究。基于其高质量的病灶掩模，多项研究致力于开发与验证新型的深度学习分割算法，以提升卒中病灶自动识别的精度与鲁棒性。利用其纵向功能磁共振数据，研究者探索了任务态脑激活模式与静息态功能连接在语言恢复过程中的动态变化，相关成果深化了对脑功能重组时序规律的认识。此外，结合弥散成像与行为学评分，已有工作尝试构建多模态融合模型，旨在更准确地预测个体患者的语言功能预后，推动了精准神经康复领域的发展。

以上内容由遇见数据集搜集并总结生成