five

LongSafari/open-genome

收藏
Hugging Face2024-07-10 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/LongSafari/open-genome
下载链接
链接失效反馈
官方服务:
资源简介:
OpenGenome数据集分为两个阶段,stage1的上下文长度为8k,stage2的上下文长度为131k。每个阶段包含训练、验证和测试数据集。stage1的训练数据集由于数据量较大,被分成了多个文件。此外,还提供了一个小样本数据集用于测试。

The OpenGenome dataset is organized into two stages, with Stage 1 having a context length of 8k and Stage 2 having a context length of 131k. Each stage includes train, validation, and test splits. The dataset is used for text generation tasks and is related to biology and genomics. It includes data files in parquet format, and the training dataset for Stage 1 is sharded due to its large size. Additionally, a small sample dataset is provided for testing purposes.
提供机构:
LongSafari
原始信息汇总

OpenGenome 数据集概述

数据集组织

  • 阶段划分
    • Stage 1:上下文长度为 8k。
    • Stage 2:上下文长度为 131k。
  • 数据分割
    • Stage 1
      • 训练集:stage1/gtdb/gtdb_train_shard_*stage1/imgpr/imgpr_train.parquet
      • 验证集:stage1/gtdb/gtdb_valid_small.parquetstage1/imgpr/imgpr_valid_small.parquet
      • 测试集:stage1/gtdb/gtdb_test.parquetstage1/imgpr/imgpr_test.parquet
    • Stage 2
      • 训练集:stage2/train_stage2.parquet
      • 验证集:stage2/valid_stage2.parquet
      • 测试集:stage2/test_stage2.parquet
    • Sample
      • 验证集:stage2/valid_stage2.parquet

数据集加载

  • 示例代码
    • 加载 Stage 1 数据集: python from datasets import load_dataset stage1_data = load_dataset("LongSafari/open-genome", stage1) stage_1_train_data = stage1_data[train]

    • 加载 Sample 数据集: python sample_data = load_dataset("LongSafari/open-genome", sample)[validation]

注意事项

  • Stage 1 训练数据集由于其大小被分片为多个文件。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于基因组学文本生成的英文数据集,采用Apache 2.0许可证,包含约1485万行数据,总大小为147 GB。数据集分为两个阶段:stage1提供8k上下文长度,stage2提供131k上下文长度,每个阶段都包含训练、验证和测试划分,适用于长上下文处理和生物信息学分析任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作