InstaDeepAI/genomics-long-range-benchmark

Name: InstaDeepAI/genomics-long-range-benchmark
Creator: InstaDeepAI
Published: 2024-06-21 18:16:51
License: 暂无描述

Hugging Face2024-06-21 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/InstaDeepAI/genomics-long-range-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

基因组学长距离基准（Genomics Long-Range Benchmark，LRB）旨在为基因组语言模型提供一个需要长距离依赖性的生物学相关任务的集合，作为评估工具。该基准包含九个任务，涵盖了从变异效应预测到染色质特征预测等多个方面。每个任务都允许用户通过指定序列长度来调整任务的上下文信息。数据集来源于多个公开的基因组数据库，如GTEx、ClinVar、OMIM等，并经过了详细的数据处理步骤，以确保数据的质量和适用性。

The Genomics Long-Range Benchmark (LRB) aims to compile a set of biologically relevant genomic tasks requiring long-range dependencies, serving as a robust evaluation tool for genomic language models. The benchmark includes nine tasks covering various aspects such as variant effect prediction and chromatin feature prediction. Each task allows users to adjust the context information by specifying the sequence length. The dataset is sourced from multiple publicly available genomic databases, such as GTEx, ClinVar, OMIM, etc., and has undergone detailed data processing steps to ensure data quality and applicability.

提供机构：

InstaDeepAI

原始信息汇总

数据集概述

数据集名称

名称: Genomics Long Range Benchmark
别名: LRB

数据集目的

目的: 编译一组生物学上相关的基因组任务，这些任务需要长距离依赖性，作为评估基因组语言模型的强大工具。

数据集任务

任务列表:
- CAGE Prediction
  - 任务名称: cage_prediction
  - 样本输出: {sequence, labels, chromosome}
  - 训练序列数: 36086
  - 测试序列数: 1922
- Bulk RNA Expression
  - 任务名称: bulk_rna_expression
  - 样本输出: {sequence, labels, chromosome}
  - 训练序列数: 22827
  - 测试序列数: 990
- Variant Effect Gene Expression
  - 任务名称: variant_effect_gene_expression
  - 样本输出: {ref sequence, alt sequence, label, tissue, chromosome, distance to nearest TSS}
  - 训练序列数: 89060
  - 测试序列数: 8862