eryon-data-pipelines

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/Chucks90/eryon-data-pipelines

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是ERYON数据管道项目的核心组成部分，专注于处理LIDC-IDRI（肺部影像数据库联盟图像数据库资源计划）数据集，这是一个公开的胸部CT扫描数据库，包含肺部结节标注。原始数据为DICOM格式的医学影像，通过管道转换为PNG格式的图像文件，并由JSONL格式的清单进行管理，清单中包含文件的sha256校验和、数据分割信息（训练集、验证集、测试集）以及标签信息。数据规模较大，需要长时间运行的作业进行下载和转换，并在存储桶中按原始（raw）、中间（interim）、处理（processed）等阶段组织。该数据集专为医学影像分析任务设计，特别是基于肺部CT扫描的计算机辅助诊断（CAD）模型训练，如肺结节检测与分类，强调严格的数据管理实践，包括患者级别的数据分割以防止数据泄漏，以及强制性的数据验证和泄漏审计，确保数据集的完整性和适用于稳健的机器学习模型开发。

This dataset is the core component of the ERYON data pipeline project, focusing on processing the LIDC-IDRI (Lung Image Database Consortium Image Database Resource Initiative) dataset, which is a public chest CT scan database containing lung nodule annotations. The original data is in DICOM format medical images, converted via the pipeline into PNG format image files, and managed by a JSONL format manifest that includes file sha256 checksums, data split information (training set, validation set, test set), and label information. The data scale is large, requiring long-running jobs for download and conversion, and is organized in storage buckets by stages such as raw, interim, and processed. This dataset is specifically designed for medical image analysis tasks, particularly computer-aided diagnosis (CAD) model training based on chest CT scans, such as lung nodule detection and classification, emphasizing strict data management practices including patient-level data splits to prevent data leakage, as well as mandatory data validation and leakage audits to ensure dataset integrity and suitability for robust machine learning model development.

创建时间：

2026-05-10

原始信息汇总

ERYON Data Pipelines 数据集概述

该数据集详情页描述了 ERYON Data Pipelines 项目，它是一个官方的医学影像数据摄取与预处理仓库，旨在管理从原始医疗数据到可用于训练的数据集的完整流程。

存储架构

项目采用分层存储架构，分为两个主要部分：

数据桶（Bucket）：hf://buckets/Chucks90/eryon-datasets，用于存储原始及中间数据。
- raw/：原始 DICOM、WSI（全切片图像）、基因组档案
- interim/：转换后的 PNG、切片、嵌入向量
- checkpoints/：训练检查点
- inference/：推理结果
- simulations/：模拟数据
代码仓库（该Repo）：Chucks90/eryon-data-pipelines，用于管理脚本、配置及元数据。
- scripts/：摄取与预处理脚本
- manifests/：每个数据集的 JSONL 清单及数据拆分
- processed/：处理后的数据集记录
- configs/：摄取、预处理、验证配置
- reports/：验证与泄漏审计报告
- metadata/：数据集注册表、版本历史

数据摄取流程

整个数据流从 TCIA（癌症影像档案库）开始，经过以下步骤最终用于训练：

TCIA → HF Job → 原始DICOM下载 → PNG转换 → 清单生成 → 泄漏审计 → 数据集拆分 → 处理后的数据集仓库 → 训练

核心脚本

脚本名称	用途
`scripts/lidc_download.py`	从 TCIA 下载 LIDC-IDRI 数据集，将 DICOM 转换为 PNG，写入数据桶
`scripts/manifest_builder.py`	生成包含 SHA256 校验、数据拆分、标签的 JSONL 清单文件
`scripts/split_dataset.py`	在患者级别进行训练/验证/测试集的拆分，确保无患者泄露
`scripts/validate_dataset.py`	执行损坏扫描、校验和验证、拆分完整性检查
`scripts/audit_leakage.py`	检测患者重叠、重复哈希、切片级泄漏

运行 LIDC 数据管线示例

通过 HF Job 下载数据：使用带有 HF 证书的 CPU 基础任务，指定数据桶挂载点，运行 lidc_download.py 脚本。
构建清单：指定原始数据根目录、数据集版本、预处理版本，生成 JSONL 清单文件。
数据拆分：基于清单文件，设置随机种子，生成含训练/验证/测试拆分的 JSON 文件。
验证与审计：分别运行验证脚本和泄漏审计脚本，检查数据完整性和患者级泄漏，输出报告。

核心规则

原始数据与处理后数据绝不可混合存放
已完成下载的批次绝不重复下载（使用 .done 哨兵文件标记）
绝不在训练管线内运行预处理流程
数据集拆分必须基于患者级别，确保同一患者不会跨训练/验证/测试集
每个数据集在训练前必须生成清单文件
泄漏审计是强制步骤

搜集汇总

数据集介绍

构建方式

ERYON Data Pipelines 构建了一套严谨的医学影像数据摄取与预处理流水线。其存储架构采用分层设计，原始数据（如DICOM、全切片图像与基因组学档案）存放于raw目录，经转换得到的PNG图像、切片及嵌入等中间产物置于interim目录，而最终处理后的数据集记录则归入processed目录。摄取流程始于从TCIA下载LIDC-IDRI数据集，通过Hugging Face作业任务将原始DICOM文件转换为PNG格式并写入存储桶，随后利用manifest_builder脚本生成包含SHA256哈希、数据集划分及标签信息的JSONL清单文件。最后，split_dataset脚本以患者为粒度执行无泄露的数据集划分，从而形成结构完整、可追溯的训练/验证/测试子集。

特点

该数据集体系的核心特性在于其严苛的防泄露机制与全流程可验证性。数据划分严格遵循患者级别原则，确保同一患者的所有切片不会跨域出现在训练集与验证集中。每份数据集在训练前必须生成完整清单，且强制性执行泄露审计（audit_leakage）以检测患者重叠、重复哈希及切片级信息泄露。此外，validate_dataset脚本负责执行数据损坏扫描、校验和验证及划分完整性检查。流水线内置了完整的版本控制与报告生成能力，原始资产与处理后的资产严格隔离，已完成的批次通过.done哨兵文件避免重复下载，预处理过程与训练流程彻底解耦，保障了数据的纯净性与实验的可复现性。

使用方法

使用者可通过Hugging Face作业任务执行数据下载，命令需指定CPU类型、超时时间及存储挂载路径，并安装tcia_utils、pydicom与Pillow等依赖库。下载完成后，依次运行manifest_builder.py生成JSONL清单文件，需指定根目录、数据集版本与预处理版本参数。随后调用split_dataset.py进行划分，可设置随机种子以控制划分结果。验证与审计环节通过validate_dataset.py和audit_leakage.py两条命令完成，前者检查数据完整性与划分一致性，后者排查泄露风险。所有脚本均接受输入路径参数并输出报告至指定目录，流程化操作确保了数据处理的标准化与可审计性，适用于医学影像分析场景下的模型训练数据准备。

背景与挑战

背景概述

ERYON数据流水线（ERYON Data Pipelines）是一个面向医学影像分析领域的开源数据预处理与管理工作流，由研究者Chucks90于近年创建，旨在解决计算病理学与基因组学中大规模医学数据的高效组织与复现性问题。该数据集框架聚焦于从TCIA（The Cancer Imaging Archive）等权威源获取原始DICOM数据，并转化为可供深度学习模型直接使用的标准化格式。其核心研究问题在于构建一个严格隔离原始与中间产物、支持可审计的泄露检测与患者级分割的数据管道，从而降低医学人工智能研究中因数据污染导致的模型评价偏差。作为推动可重复医学影像研究的基础设施，该工作流在小型团队快速搭建高质量医学数据集方面具有示范价值，尤其对肺结节检测（如LIDC-IDRI）等任务的标准化处理产生了实质影响。

当前挑战

该数据集面临的核心领域挑战在于医学影像分布的高度异质性与隐私敏感性：不同来源的DICOM格式、切片厚度与采集协议差异显著，需实现无损且鲁棒的格式统一与组织，同时确保患者级数据分割以杜绝跨集信息泄露。在构建过程中，挑战表现为对海量原始文件（如数十GB的WSI与DICOM存档）的高效下载与转换，需借助HF Job等批处理机制并设置完成哨兵文件避免重复劳动；此外，强制性的完整性校验与哈希重复检测增加了管道复杂度，而元数据版本控制与多格式清单的生成要求流水线在扩展新数据集时仍保持最小化配置错误。

常用场景

经典使用场景

ERYON数据管道（eryon-data-pipelines）专为医学影像与基因组学数据的标准化摄取与预处理而设计，其经典使用场景在于将非结构化原始数据（如DICOM格式的CT扫描、全切片病理图像及基因组学档案）转化为适用于深度学习训练的高质量、结构化数据集。该管道围绕LIDC-IDRI等公共数据集，定义了从TCIA等数据源下载、DICOM至PNG格式转换、JSONL清单生成、患者级无泄漏划分到完整性校验的完整工作流。通过容器化任务管理，研究人员能够高效处理大量医学影像数据，确保每个数据批次的可追溯性与可复现性，从而加速医学AI模型的研发进程。

实际应用

在实际临床与工业应用中，ERYON数据管道可直接服务于构建高质量的医学影像诊断模型。例如，利用其对LIDC-IDRI肺结节数据集的处理流程，医疗机构能够快速获得经过严格质量控制的训练数据，用于开发肺结节良恶性分类、分割及风险分层模型。管道输出的标准化清单与患者级划分结果，便于集成到现有的医院影像存档与通信系统中，支撑放射科医生的辅助诊断工作流程。同时，管道设计的通用架构也适用于其他影像模态（如乳腺钼靶、脑部MRI）及多模态融合任务，为制药企业、医疗AI创业公司的影像数据治理与模型迭代提供了工业化级别的底层基础设施，降低数据准备的人力成本与出错风险。

衍生相关工作

ERYON数据管道的设计理念与实现思路已衍生出多项关键后续工作。其原始获取与预处理逻辑可追溯到LIDC-IDRI数据集的经典分析论文，这些工作首次系统性地评估了肺结节CT影像的标注一致性，为后续深度学习模型提供了基准。管道中患者级无泄漏划分与审计功能，则直接响应了近年医学影像社区对数据泄漏问题的广泛关注，衍生出如交叉验证中基于患者标识符的分层采样策略、性能评估的保序性检验等方法论研究。此外，管道采用的JSONL清单格式与校验机制，已被其他医学数据集构建工作（如MIMIC-CXR、BraTS的预处理版本）所借鉴，逐步形成医学AI数据集预处理的事实标准模板，推动了领域内数据共享与复现文化的成熟。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集