five

InstaDeepAI/genomics-long-range-benchmark

收藏
Hugging Face2024-06-21 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/InstaDeepAI/genomics-long-range-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
基因组学长距离基准(Genomics Long-Range Benchmark,LRB)旨在为基因组语言模型提供一个需要长距离依赖性的生物学相关任务的集合,作为评估工具。该基准包含九个任务,涵盖了从变异效应预测到染色质特征预测等多个方面。每个任务都允许用户通过指定序列长度来调整任务的上下文信息。数据集来源于多个公开的基因组数据库,如GTEx、ClinVar、OMIM等,并经过了详细的数据处理步骤,以确保数据的质量和适用性。

The Genomics Long-Range Benchmark (LRB) aims to compile a set of biologically relevant genomic tasks requiring long-range dependencies, serving as a robust evaluation tool for genomic language models. The benchmark includes nine tasks covering various aspects such as variant effect prediction and chromatin feature prediction. Each task allows users to adjust the context information by specifying the sequence length. The dataset is sourced from multiple publicly available genomic databases, such as GTEx, ClinVar, OMIM, etc., and has undergone detailed data processing steps to ensure data quality and applicability.
提供机构:
InstaDeepAI
原始信息汇总

数据集概述

数据集名称

  • 名称: Genomics Long Range Benchmark
  • 别名: LRB

数据集目的

  • 目的: 编译一组生物学上相关的基因组任务,这些任务需要长距离依赖性,作为评估基因组语言模型的强大工具。

数据集任务

  • 任务列表:
    • CAGE Prediction
      • 任务名称: cage_prediction
      • 样本输出: {sequence, labels, chromosome}
      • 训练序列数: 36086
      • 测试序列数: 1922
    • Bulk RNA Expression
      • 任务名称: bulk_rna_expression
      • 样本输出: {sequence, labels, chromosome}
      • 训练序列数: 22827
      • 测试序列数: 990
    • Variant Effect Gene Expression
      • 任务名称: variant_effect_gene_expression
      • 样本输出: {ref sequence, alt sequence, label, tissue, chromosome, distance to nearest TSS}
      • 训练序列数: 89060
      • 测试序列数: 8862

使用示例

python from datasets import load_dataset

sequence_length=2048 task_name = "variant_effect_gene_expression"

dataset = load_dataset( "InstaDeepAI/genomics-long-range-benchmark", task_name=task_name, sequence_length=sequence_length, )

任务详情

1. CAGE Prediction

  • 任务类型: 多变量回归
  • 输入: 基因组核苷酸序列
  • 输出: 根据请求的序列长度变化的长度向量
  • 任务参数: sequence_length (必须为128的倍数)
  • 数据处理: 从原始的638个CAGE轨迹中选择50个,总大小约7GB
  • 评估指标: 平均Pearson相关性跨轨迹,平均Pearson相关性跨基因,R²

2. Bulk RNA Expression

  • 任务类型: 多变量回归
  • 输入: 围绕CAGE代表转录起始点的基因组核苷酸序列
  • 输出: 218个不同组织类型的连续值向量
  • 任务参数: sequence_length
  • 数据处理: 原始数据来自GTEx,标签经过log(1+x)转换和标准化
  • 评估指标: 平均Spearman相关性跨组织,平均Spearman相关性跨基因,R²

3. Variant Effect Gene Expression

  • 任务类型: 二分类
  • 输入: 围绕SNP的基因组核苷酸序列,参考和替代等位基因,组织类型
  • 输出: 二进制值,指示变异是否影响基因表达
  • 任务参数: sequence_length
  • 数据处理: 数据来自GTEx,标签根据Enformer方法构建
  • 评估指标: 准确性,AUROC,AUPRC
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作