open-genome

Hugging Face2024-07-07 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/LongSafari/open-genome

下载链接

链接失效反馈

官方服务：

资源简介：

OpenGenome数据集分为两个阶段，stage1的上下文长度为8k，stage2的上下文长度为131k。每个阶段包含训练、验证和测试数据集。数据集使用.parquet格式存储，支持高效的数据压缩和转换为jsonl及.bin文件格式。

The OpenGenome dataset is divided into two stages, with context lengths of 8k and 131k for stage 1 and stage 2 respectively. Each stage includes training, validation, and test datasets. The dataset is stored in the Parquet format, which supports efficient data compression and can be converted into jsonl and .bin file formats.

创建时间：

2024-07-06

原始信息汇总

数据集概述

数据集名称

pretty_name: open-genome

数据集标签

tags:
- stripedhyena
- long context
- deep signal processing
- hybrid
- biology
- genomics

任务类别

task_categories:
- text-generation

语言

language:
- en

数据集组织

阶段:
- stage1: 上下文长度为8k
  - train: 包含多个分片文件
    - "stage1/gtdb/gtdb_train_shard_*"
    - "stage1/imgpr/imgpr_train.parquet"
  - validation:
    - "stage1/gtdb/gtdb_valid_small.parquet"
    - "stage1/imgpr/imgpr_valid_small.parquet"
  - test:
    - "stage1/gtdb/gtdb_test.parquet"
    - "stage1/imgpr/imgpr_test.parquet"
- stage2: 上下文长度为131k
  - train: "stage2/train_stage2.parquet"
  - validation: "stage2/valid_stage2.parquet"
  - test: "stage2/test_stage2.parquet"
- sample:
  - validation: "stage2/valid_stage2.parquet"

下载说明

使用HF的API加载数据集，示例如下： python from datasets import load_dataset

stage1_data = load_dataset("LongSafari/open-genome", stage1) stage_1_train_data = stage1_data[train]

sample_data = load_dataset("LongSafari/open-genome", sample)[validation]

搜集汇总

数据集介绍

构建方式

OpenGenome数据集采用分阶段构建策略，分为两个主要阶段。第一阶段（stage1）的上下文长度为8k，第二阶段（stage2）的上下文长度扩展至131k。每个阶段均包含训练集、验证集和测试集，数据文件以Parquet格式存储，便于高效读取和处理。由于数据量庞大，stage1的训练集被分割为多个分片文件，以优化存储和加载效率。

使用方法

用户可通过Hugging Face的API加载OpenGenome数据集。以stage1为例，使用`load_dataset`函数加载数据集后，可分别访问训练集、验证集和测试集。对于大规模数据，stage1的训练集被分片存储，用户可按需加载。此外，数据集还提供了小规模样本，用户可通过加载`sample`配置快速测试数据处理流程。这种灵活的数据加载方式，极大地方便了用户在不同场景下的使用需求。

背景与挑战

背景概述

OpenGenome数据集是一个专注于基因组学和深度信号处理的开放数据集，由LongSafari团队开发并发布于HuggingFace平台。该数据集旨在通过长上下文模型（如StripedHyena）推动基因组数据的深度学习和文本生成任务。数据集分为两个阶段，阶段1的上下文长度为8k，阶段2则扩展至131k，涵盖了从基础到复杂的基因组数据处理需求。OpenGenome的发布为基因组学领域的研究人员提供了一个强大的工具，能够更好地理解和分析基因组数据中的复杂模式。

当前挑战

OpenGenome数据集在解决基因组学领域的文本生成任务时面临多重挑战。首先，基因组数据的复杂性和高维度特性使得模型需要处理长上下文信息，这对计算资源和算法效率提出了极高要求。其次，数据集的构建过程中，如何有效整合来自不同来源的基因组数据并确保其一致性和质量，是一个技术难题。此外，由于基因组数据的隐私性和敏感性，数据的安全性和合规性也是构建过程中需要重点考虑的问题。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和应用提出了更高的要求。

常用场景

经典使用场景

在基因组学研究领域，open-genome数据集因其长上下文处理能力而备受关注。该数据集广泛应用于基因组序列的生成与分析，特别是在处理长达131k的上下文时，能够有效捕捉基因组中的深层信号。研究人员利用该数据集进行基因组序列的生成任务，探索基因组中的复杂模式与结构。

解决学术问题

open-genome数据集解决了基因组学研究中长序列生成与分析的难题。通过提供长达131k的上下文长度，该数据集使得研究人员能够更全面地理解基因组中的复杂信号与模式。这一突破不仅推动了基因组序列生成技术的发展，还为基因组学领域的深度学习模型提供了重要的训练数据。

实际应用

在实际应用中，open-genome数据集被广泛用于基因组序列的生成与分析任务。例如，在生物信息学领域，研究人员利用该数据集进行基因组注释、基因功能预测以及疾病相关基因的识别。此外，该数据集还为基因组编辑技术提供了重要的数据支持，推动了精准医学的发展。

数据集最近研究