bioR_tasks

Hugging Face2025-05-06 更新2025-05-07 收录

下载链接：

https://huggingface.co/datasets/wanglab/bioR_tasks

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了关于基因变异影响的多个配置的数据，每个配置都有参考序列、替代序列、染色体、标签等特征，并且分为训练集和测试集。具体包括基因变异对因果等位基因的影响、病理性影响、以及与疾病相关的数据。

创建时间：

2025-04-24

原始信息汇总

数据集概述

数据集名称

bioR_tasks

数据集配置

1. variant_effect_causal_eqtl

特征:
- ref_forward_sequence: string
- alt_forward_sequence: string
- tissue: string
- chromosome: string
- label: string
数据划分:
- train: 89,060 个样本，733,222,918 字节
- test: 8,862 个样本，72,960,623 字节
下载大小: 222,889,395 字节
数据集大小: 806,183,541 字节

2. variant_effect_pathogenic_clinvar

特征:
- label: string
- chromosome: string
- ref_forward_sequence: string
- alt_forward_sequence: string
- gene: string
- gene_name: string
- disease: string
数据划分:
- train: 48,850 个样本，404,403,297 字节
- test: 1,233 个样本，10,198,075 字节
下载大小: 101,233,780 字节
数据集大小: 414,601,372 字节

3. varient_effect_causal_eqtl

特征:
- ref_forward_sequence: string
- alt_forward_sequence: string
- label: string
数据划分:
- train: 89,060 个样本，730,737,300 字节
- test: 8,862 个样本，72,712,710 字节
下载大小: 222,738,574 字节
数据集大小: 803,450,010 字节

4. varient_effect_clinvar

特征:
- ref_forward_sequence: string
- alt_forward_sequence: string
- label: string
数据划分:
- train: 38,634 个样本，316,991,970 字节
- test: 1,018 个样本，8,352,690 字节
下载大小: 100,769,148 字节
数据集大小: 325,344,660 字节

5. varient_effect_pathogenic_omim

特征:
- ref_forward_sequence: string
- alt_forward_sequence: string
- chromosome: string
- label: string
数据划分:
- test: 2,321,473 个样本，19,071,873,567 字节
下载大小: 4,127,853,757 字节
数据集大小: 19,071,873,567 字节

搜集汇总

数据集介绍

构建方式

bioR_tasks数据集通过整合多个生物医学领域的权威数据源构建而成，涵盖变异效应预测的多个子任务。数据集采用标准化的生物序列标注方法，对参考序列和变异序列进行精确匹配，并依据临床变异数据库ClinVar和表达数量性状位点(eQTL)研究数据进行标签标注。数据划分遵循严格的生物学标准，确保训练集和测试集在染色体分布和变异类型上保持平衡，避免信息泄露。

特点

该数据集最显著的特点在于其多模态的生物医学信息整合，同时包含基因序列、染色体位置、组织特异性以及疾病关联等关键特征。不同子任务针对特定生物医学问题设计，如致病性变异预测和因果eQTL识别，具有明确的临床和研究价值。数据规模庞大且标注精细，序列信息采用标准化表示，便于机器学习模型直接处理。

使用方法

使用该数据集时，建议根据具体研究目标选择合适的子任务配置。机器学习实践者可利用序列特征和染色体信息构建预测模型，而临床研究人员则可关注疾病关联字段进行深入分析。数据集已预先划分为训练集和测试集，支持开箱即用的模型开发和评估。对于OMIM子任务，由于其特殊的大规模测试集设计，适合作为算法性能的最终验证基准。

背景与挑战

背景概述

bioR_tasks数据集是生物信息学领域的重要资源，专注于基因组变异效应预测的研究。该数据集由专业研究团队构建，旨在解决基因组学中变异功能注释的核心问题，涵盖因果表达数量性状位点（eQTL）分析、致病性变异预测等多个关键任务。通过整合ClinVar、OMIM等权威数据库的变异数据，该数据集为理解遗传变异与表型关联提供了标准化评估框架，推动了精准医学和功能基因组学的发展。

当前挑战

该数据集面临的主要挑战体现在两方面：在科学问题层面，基因组变异效应预测需解决序列上下文依赖性、组织特异性调控等复杂生物学问题，现有模型对低频变异和结构变异的预测精度仍显不足；在数据构建层面，需处理不同来源数据的异构性，解决临床注释不一致性，并平衡致病与非致病变异的样本分布。多组学数据整合与跨中心验证进一步增加了数据标准化的难度。

常用场景

经典使用场景

在基因组学研究中，bioR_tasks数据集被广泛应用于变异效应预测和功能基因组学分析。该数据集通过整合多种变异类型（如ClinVar和OMIM数据库中的致病性变异）及其对应的基因序列信息，为研究人员提供了评估非编码区变异对基因表达调控影响的标准化平台。其经典应用场景包括训练深度学习模型预测eQTL（表达数量性状位点）的因果效应，以及识别与复杂疾病相关的功能性遗传变异。

衍生相关工作

基于bioR_tasks数据集衍生的经典工作包括：DeepSEA框架的改进版本实现了非编码变异功能预测的突破；EpiMap项目利用该数据构建了增强子-基因调控网络；多项Nature Genetics研究通过整合该数据集开发了新的全基因组关联分析方法。这些工作共同推动了功能基因组学研究的范式转变。

数据集最近研究