methyl-classification

Hugging Face2025-04-23 更新2025-04-24 收录

下载链接：

https://huggingface.co/datasets/ylab/methyl-classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个关于DNA甲基化的组织分类数据集，包含了16,959个健康的人类原始组织和细胞样本的DNA甲基化(DNAm)特征，这些样本使用Illumina 450K阵列进行测序。数据集涵盖了86种独特的组织和细胞类型，并手动映射到UBERON解剖学本体中的通用术语。这个数据集旨在作为生物医学领域多标签分类的基线资源，特别是用于组织/细胞类型分类、去卷积和表观遗传生物标志物发现。

创建时间：

2025-04-18

原始信息汇总

DNA甲基化组织分类数据集概述

数据集基本信息

语言: 英语
主页: https://github.com/ylaboratory/methylation-classification
许可证: CC-BY-4.0
任务类别: 表格分类
标签: 生物学、生物信息学、生物医学、DNA甲基化、多标签分类
数据集名称: 450k DNA methylation tissue classification
规模: 10K<n<100K

数据集摘要

PubMed发布: 否
公开性: 是
数据来源: 16,959个健康原代人类组织和细胞样本的DNA甲基化(DNAm)图谱，使用Illumina 450K阵列分析
样本覆盖: 86种独特的组织和细胞类型，手动映射到UBERON解剖本体论
用途: 作为生物医学领域多标签分类的基准资源，特别是用于组织/细胞类型分类、反卷积和表观遗传生物标志物发现

关键统计

总DNAm样本: 16,959个，来自Gene Expression Omnibus(GEO)的210项研究
组织/细胞类型: 86种(训练集中55种，保留集中31种)
质量控制CpG位点: 每个样本297,598个(M值)
训练样本: 10,351个(每个标签≥2项研究)
保留样本: 6,608个，用于评估泛化/标签转移

数据和使用

数据分区

训练集: 用于训练和交叉验证
保留集: 用于评估未见标签

数据类型

M值: 前297,598列，经过预处理和质量控制的DNAm M值
元数据: 最后5列，包含样本ID、数据集、UBERON组织/细胞标识符和标签

文件列表

full_ontology.edgelist: 包含所有86种组织和细胞术语的本体网络
training_ontology.edgelist: 包含55种组织和细胞术语的训练本体网络
train.parquet: 训练分区的M值
test.parquet: 测试分区的M值
metadata.parquet: 所有样本的元数据

元数据列

training.ID: 标准化的UBERON ID
training.Name: 训练ID对应的组织/细胞名称
Dataset: GEO中的数据集标识符(GSE ID)
Original.ID: 手动注释的最具描述性的UBERON ID
Original.Name: 原始ID对应的组织/细胞名称

快速开始

使用Python和相关包可以快速开始使用此数据集。示例代码包括加载数据集、查看元数据和绘制甲基化密度图。

引用

如果使用此数据集，请引用:

@article{kim2024methylation_atlas, title = {Ontology-aware DNA methylation classification with a curated atlas of human tissues and cell types}, author = {Kim, Mirae and Dannenfelser, Ruth and Cui, Yufei and Allen, Genevera and Yao, Vicky}, journal = {bioRxiv preprint}, year = {2025}, doi = {10.1101/2024.XX.XXXXXX} }

许可证

此数据集根据CC BY 4.0发布，允许学术和商业使用，需署名。

搜集汇总

数据集介绍

构建方式

该数据集构建于Illumina 450K芯片平台采集的DNA甲基化数据，涵盖16,959份健康人类原代组织和细胞样本，涉及86种独特的组织与细胞类型。数据来源于基因表达综合数据库（GEO）中的210项研究，经过严格的质控筛选，保留297,598个CpG位点的M值。样本通过UBERON解剖本体论进行标准化标注，并划分为10,351个训练样本和6,608个保留测试集，确保每个训练标签至少包含两项独立研究的数据支撑。预处理采用preprocessNoob背景校正和BMIQ归一化方法，数据以Parquet格式存储以优化性能。

特点

作为目前最全面的DNA甲基化参考图谱，该数据集的核心价值体现在多维度的生物学特征上。其覆盖55种训练集组织类型和31种测试集新型组织，支持跨组织表观遗传标记发现研究。数据采用双层注释体系，既包含精确的原始组织描述（如心包脂肪），也提供广义分类术语（如内脏脂肪），便于不同粒度下的分析。技术层面，所有样本均经过统一质控流程处理，M值矩阵与元数据分离存储的设计兼顾了计算效率与标注灵活性，配套的组织本体论网络文件更为跨层次生物学关系研究提供了结构化框架。

使用方法

研究者可通过HuggingFace库直接加载Parquet格式的数据文件，利用PyArrow实现高效读取。典型工作流包括：使用metadata.parquet获取样本标注信息，结合train.parquet和test.parquet构建分类模型。示例代码演示了如何通过Seaborn可视化样本甲基化密度分布，而配套的GitHub仓库则提供完整的生物信息学分析管线。该数据集特别适用于开发多标签分类算法，在组织来源预测、表观遗传解卷积等场景中，需注意训练集与保留测试集的本体论层级差异，后者专门用于评估模型对未见组织类型的泛化能力。

背景与挑战

背景概述

甲基化分类数据集（methyl-classification）由Y实验室团队于2025年构建，旨在为生物医学领域提供一个全面的DNA甲基化（DNAm）参考图谱。该数据集整合了来自210项研究的16,959个健康人类原代组织和细胞样本，覆盖86种独特的组织和细胞类型，并通过Illumina 450K芯片进行甲基化分析。数据集的核心研究问题聚焦于多标签分类任务，特别是在组织/细胞类型分类、去卷积分析以及表观遗传生物标志物发现方面。通过将样本映射至UBERON解剖本体论，该资源为表观遗传学研究提供了标准化基准，显著推动了精准医学和生物标记物开发的进展。

当前挑战

甲基化分类数据集面临的主要挑战包括两方面：其一，在领域问题层面，DNA甲基化数据的复杂性和高维度特性（每个样本包含297,598个CpG位点）对分类模型的泛化能力提出了严峻考验，尤其是面对未见过的组织类型时；其二，在数据构建过程中，研究人员需克服样本异质性、批次效应校正以及跨研究数据整合的技术难题，同时确保手动标注的UBERON术语映射的准确性和一致性。此外，如何在高噪声背景下提取具有生物学意义的甲基化模式，也是该数据集应用中的关键挑战。

常用场景

经典使用场景

在表观遗传学研究中，DNA甲基化作为基因表达调控的重要机制，其组织特异性模式一直是生物医学领域的关注焦点。methyl-classification数据集通过整合来自210项研究的16,959个健康人类组织样本的450K甲基化芯片数据，构建了涵盖86种组织细胞类型的参考图谱。该数据集最经典的应用场景是作为基准数据集，用于开发多标签分类算法，以预测未知样本的组织来源。研究人员可利用其标准化的M值和UBERON本体注释，训练机器学习模型识别不同组织特异的甲基化特征模式。

解决学术问题

该数据集有效解决了表观遗传学领域三个关键科学问题：组织特异性甲基化标记的系统性挖掘、跨研究数据的标准化整合、以及小样本条件下的标签迁移问题。通过提供经过严格质控的297,598个CpG位点数据，研究者能够突破单一样本量不足的限制，探索甲基化模式的组织分化规律。其引入的UBERON本体框架，首次实现了跨研究组织术语的系统整合，为开发具有生物学解释性的分类模型提供了结构化知识支撑。

衍生相关工作

基于该数据集衍生的经典工作主要集中在三个方向：开发本体感知的深度神经网络架构，如Kim等提出的层次化分类模型；构建甲基化组织图谱的交互式可视化工具，实现多维数据的空间映射；建立跨平台甲基化数据转换算法，解决450K与EPIC芯片数据的兼容性问题。这些工作显著推进了计算表观遗传学方法学的发展，相关成果已发表于《Nature Computational Science》等期刊。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集