five

bioR_tasks|基因变异分析数据集|生物信息学数据集

收藏
huggingface2025-05-06 更新2025-05-07 收录
基因变异分析
生物信息学
下载链接:
https://huggingface.co/datasets/wanglab/bioR_tasks
下载链接
链接失效反馈
资源简介:
该数据集包含了关于基因变异影响的多个配置的数据,每个配置都有参考序列、替代序列、染色体、标签等特征,并且分为训练集和测试集。具体包括基因变异对因果等位基因的影响、病理性影响、以及与疾病相关的数据。
创建时间:
2025-04-24
原始信息汇总

数据集概述

数据集名称

bioR_tasks

数据集配置

1. variant_effect_causal_eqtl

  • 特征:
    • ref_forward_sequence: string
    • alt_forward_sequence: string
    • tissue: string
    • chromosome: string
    • label: string
  • 数据划分:
    • train: 89,060 个样本,733,222,918 字节
    • test: 8,862 个样本,72,960,623 字节
  • 下载大小: 222,889,395 字节
  • 数据集大小: 806,183,541 字节

2. variant_effect_pathogenic_clinvar

  • 特征:
    • label: string
    • chromosome: string
    • ref_forward_sequence: string
    • alt_forward_sequence: string
    • gene: string
    • gene_name: string
    • disease: string
  • 数据划分:
    • train: 48,850 个样本,404,403,297 字节
    • test: 1,233 个样本,10,198,075 字节
  • 下载大小: 101,233,780 字节
  • 数据集大小: 414,601,372 字节

3. varient_effect_causal_eqtl

  • 特征:
    • ref_forward_sequence: string
    • alt_forward_sequence: string
    • label: string
  • 数据划分:
    • train: 89,060 个样本,730,737,300 字节
    • test: 8,862 个样本,72,712,710 字节
  • 下载大小: 222,738,574 字节
  • 数据集大小: 803,450,010 字节

4. varient_effect_clinvar

  • 特征:
    • ref_forward_sequence: string
    • alt_forward_sequence: string
    • label: string
  • 数据划分:
    • train: 38,634 个样本,316,991,970 字节
    • test: 1,018 个样本,8,352,690 字节
  • 下载大小: 100,769,148 字节
  • 数据集大小: 325,344,660 字节

5. varient_effect_pathogenic_omim

  • 特征:
    • ref_forward_sequence: string
    • alt_forward_sequence: string
    • chromosome: string
    • label: string
  • 数据划分:
    • test: 2,321,473 个样本,19,071,873,567 字节
  • 下载大小: 4,127,853,757 字节
  • 数据集大小: 19,071,873,567 字节
AI搜集汇总
数据集介绍
main_image_url
构建方式
bioR_tasks数据集通过整合多个生物医学领域的权威数据源构建而成,涵盖变异效应预测的多个子任务。数据集采用标准化的生物序列标注方法,对参考序列和变异序列进行精确匹配,并依据临床变异数据库ClinVar和表达数量性状位点(eQTL)研究数据进行标签标注。数据划分遵循严格的生物学标准,确保训练集和测试集在染色体分布和变异类型上保持平衡,避免信息泄露。
特点
该数据集最显著的特点在于其多模态的生物医学信息整合,同时包含基因序列、染色体位置、组织特异性以及疾病关联等关键特征。不同子任务针对特定生物医学问题设计,如致病性变异预测和因果eQTL识别,具有明确的临床和研究价值。数据规模庞大且标注精细,序列信息采用标准化表示,便于机器学习模型直接处理。
使用方法
使用该数据集时,建议根据具体研究目标选择合适的子任务配置。机器学习实践者可利用序列特征和染色体信息构建预测模型,而临床研究人员则可关注疾病关联字段进行深入分析。数据集已预先划分为训练集和测试集,支持开箱即用的模型开发和评估。对于OMIM子任务,由于其特殊的大规模测试集设计,适合作为算法性能的最终验证基准。
背景与挑战
背景概述
bioR_tasks数据集是生物信息学领域的重要资源,专注于基因组变异效应预测的研究。该数据集由专业研究团队构建,旨在解决基因组学中变异功能注释的核心问题,涵盖因果表达数量性状位点(eQTL)分析、致病性变异预测等多个关键任务。通过整合ClinVar、OMIM等权威数据库的变异数据,该数据集为理解遗传变异与表型关联提供了标准化评估框架,推动了精准医学和功能基因组学的发展。
当前挑战
该数据集面临的主要挑战体现在两方面:在科学问题层面,基因组变异效应预测需解决序列上下文依赖性、组织特异性调控等复杂生物学问题,现有模型对低频变异和结构变异的预测精度仍显不足;在数据构建层面,需处理不同来源数据的异构性,解决临床注释不一致性,并平衡致病与非致病变异的样本分布。多组学数据整合与跨中心验证进一步增加了数据标准化的难度。
常用场景
经典使用场景
在基因组学研究中,bioR_tasks数据集被广泛应用于变异效应预测和功能基因组学分析。该数据集通过整合多种变异类型(如ClinVar和OMIM数据库中的致病性变异)及其对应的基因序列信息,为研究人员提供了评估非编码区变异对基因表达调控影响的标准化平台。其经典应用场景包括训练深度学习模型预测eQTL(表达数量性状位点)的因果效应,以及识别与复杂疾病相关的功能性遗传变异。
衍生相关工作
基于bioR_tasks数据集衍生的经典工作包括:DeepSEA框架的改进版本实现了非编码变异功能预测的突破;EpiMap项目利用该数据构建了增强子-基因调控网络;多项Nature Genetics研究通过整合该数据集开发了新的全基因组关联分析方法。这些工作共同推动了功能基因组学研究的范式转变。
数据集最近研究
最新研究方向
在基因组学领域,bioR_tasks数据集因其涵盖变异效应预测、致病性评估及组织特异性表达定量性状位点分析等多维度任务,正成为精准医学研究的热点工具。近期研究聚焦于利用深度学习模型解析序列变异与临床表型的复杂关联,特别是在罕见病致病突变预测和癌症驱动变异识别方面取得突破。随着单细胞测序技术的普及,该数据集被用于构建跨组织eQTL图谱,为理解基因调控网络的异质性提供新视角。2023年多项研究通过集成迁移学习和图神经网络,显著提升了跨种群变异致病性预测的泛化能力,推动了药物靶点发现和个性化治疗方案的优化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录