computage/computage_bench

Name: computage/computage_bench
Creator: computage
Published: 2025-02-05 11:25:34
License: 暂无描述

Hugging Face2025-02-05 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/computage/computage_bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过整合来自NCBI Gene Expression Omnibus（GEO）数据仓库的公开DNA甲基化数据集，收集了人类血液和唾液样本的甲基化数据，涵盖了健康对照和加速衰老条件下的样本。数据集包含10,404个样本和900,449个特征（DNA甲基化位点），来自65个独立研究。数据集的主要用途是用于衰老时钟模型的基准测试，但也适用于其他相关研究。数据分为两部分：数据部分存储在“~/data”文件夹中，包含样本的甲基化谱；元数据部分存储在“~/computage_bench_meta.tsv”文件中，包含样本的年龄、性别、条件等信息。

提供机构：

computage

原始信息汇总

ComputAge Bench Dataset

数据集概述

基本信息

许可证: CC BY-SA 4.0
任务类别: 表格回归
标签: 生物学, 衰老, 生物标志物, 表观遗传学, 生物信息学, 生命科学
大小类别: 10K<n<100K
语言: 英语
名称: ComputAge Bench
配置: 默认配置
- 数据文件:
  - 分割: 测试
  - 路径: "computage_bench_meta.tsv"

数据集描述

来源: 结合了NCBI Gene Expression Omnibus (GEO)数据仓库中的公开DNA甲基化数据集。
样本: 来自具有加速衰老条件和健康对照的患者。
平台: Illumina Infinium BeadChip人类甲基化阵列。
结构: 数据存储在“~/data”文件夹中，包含甲基化 profiles；元数据包含样本的额外信息，如年龄、性别、条件等，存储为“~/computage_bench_meta.tsv”。
样本数量: 10,404个样本
特征数量: 900,449个特征（DNA甲基化位点）
研究数量: 65个独立研究

数据描述

甲基化报告方式: 以beta值或M值报告。
数据转换: 所有数据转换为0到1之间的beta值。
行名: DNA甲基化位点ID。
列名: GEO样本ID。

元数据描述

行名: GEO样本ID。
列名:
- DatasetID: GEO数据集ID。
- PlatformID: GEO平台ID。
- Tissue: 样本来源组织。
- CellType: 样本细胞类型。
- Gender: 样本捐赠者性别。
- Age: 样本捐赠者年龄。
- Condition: 样本捐赠者健康或疾病状态。
- Class: 样本条件的类别。

使用指南

安装库: 使用pip install computage安装交互库。
基准测试: 使用提供的代码块进行新衰老时钟的基准测试。
数据探索: 使用pandas或其他parquet阅读器打开数据集。

附加信息

许可证信息: 数据集在CC BY-SA 4.0许可证下发布。
引用信息: 请引用https://doi.org/10.1101/2024.06.06.597715。

搜集汇总

数据集介绍

构建方式

ComputAge Bench数据集的构建基于对公开可用的人类血液和唾液样本DNA甲基化数据的整合，这些数据来源于NCBI Gene Expression Omnibus (GEO)数据库。研究团队根据特定的标准筛选了包含年龄和疾病状态注释的样本，确保了数据集的科学性和实用性。所有样本的甲基化数据均通过Illumina Infinium BeadChip平台生成，涵盖了不同代际的甲基化阵列。数据集分为数据和元数据两部分，数据部分以parquet格式存储，包含样本的甲基化谱，而元数据部分则提供了样本的详细信息，如年龄、性别、疾病状态等。

使用方法

使用ComputAge Bench数据集进行老化时钟模型的基准测试，首先需要安装ComputAge库以方便地与数据集和其他工具进行交互。研究者可以通过定义模型配置和路径，使用提供的代码块进行模型基准测试。此外，数据集也可以通过Hugging Face Hub下载并在本地使用pandas等工具进行探索性分析。数据集的结构清晰，便于研究者快速上手，且提供了详细的用法指南，确保了数据集的广泛适用性。

背景与挑战

背景概述

ComputAge Bench数据集由Computational Aging Lab开发，旨在推动衰老时钟领域的研究进展。该数据集专注于DNA甲基化与生物年龄预测，汇集了来自NCBI Gene Expression Omnibus的公开DNA甲基化数据，涵盖了多种衰老加速条件下的样本与健康对照组。其核心研究问题在于通过机器学习模型评估和比较不同衰老时钟的性能，以期更准确地预测个体的生物年龄。该数据集的构建不仅为生物信息学和表观遗传学领域提供了宝贵的资源，还为衰老相关疾病的早期诊断和干预提供了新的研究方向。

当前挑战

ComputAge Bench数据集面临的挑战主要集中在两个方面。首先，生物年龄的定义和测量缺乏统一标准，导致模型性能评估的复杂性增加。其次，数据集的构建过程中，整合来自不同平台的DNA甲基化数据，处理缺失值和数据异质性问题，确保数据质量和一致性，是一项技术上的挑战。此外，如何有效地利用该数据集进行衰老时钟的基准测试，并推动其在临床应用中的转化，也是当前研究面临的重要问题。

常用场景

经典使用场景

ComputAge Bench数据集的经典使用场景主要集中在生物年龄预测模型的基准测试。通过该数据集，研究者可以评估不同衰老时钟模型在预测加速衰老条件下个体生物年龄的能力。具体而言，数据集包含了来自不同疾病状态和健康对照组的DNA甲基化数据，使得研究者能够比较模型在不同条件下的表现，从而优化和改进现有的衰老时钟模型。

解决学术问题

该数据集解决了生物年龄预测领域中缺乏统一基准的学术问题。传统的生物年龄预测模型通常依赖于单一的评估指标，如平均绝对误差或皮尔逊相关系数，这些指标在评估模型性能时存在局限性。ComputAge Bench通过引入加速衰老条件下的样本，提供了一个更为全面和严格的基准测试框架，有助于推动衰老时钟模型的精确性和可靠性研究。

实际应用

在实际应用中，ComputAge Bench数据集可用于开发和验证个性化健康管理工具。通过准确预测个体的生物年龄，医疗从业者可以更早地识别出潜在的健康风险，并制定针对性的干预措施。此外，该数据集还可应用于药物研发领域，帮助评估新药对衰老过程的影响，从而加速抗衰老药物的开发进程。

数据集最近研究