LongSafari/open-genome
收藏Hugging Face2024-07-10 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/LongSafari/open-genome
下载链接
链接失效反馈官方服务:
资源简介:
OpenGenome数据集分为两个阶段,stage1的上下文长度为8k,stage2的上下文长度为131k。每个阶段包含训练、验证和测试数据集。stage1的训练数据集由于数据量较大,被分成了多个文件。此外,还提供了一个小样本数据集用于测试。
The OpenGenome dataset is organized into two stages, with Stage 1 having a context length of 8k and Stage 2 having a context length of 131k. Each stage includes train, validation, and test splits. The dataset is used for text generation tasks and is related to biology and genomics. It includes data files in parquet format, and the training dataset for Stage 1 is sharded due to its large size. Additionally, a small sample dataset is provided for testing purposes.
提供机构:
LongSafari
原始信息汇总
OpenGenome 数据集概述
数据集组织
- 阶段划分:
- Stage 1:上下文长度为 8k。
- Stage 2:上下文长度为 131k。
- 数据分割:
- Stage 1:
- 训练集:
stage1/gtdb/gtdb_train_shard_*和stage1/imgpr/imgpr_train.parquet。 - 验证集:
stage1/gtdb/gtdb_valid_small.parquet和stage1/imgpr/imgpr_valid_small.parquet。 - 测试集:
stage1/gtdb/gtdb_test.parquet和stage1/imgpr/imgpr_test.parquet。
- 训练集:
- Stage 2:
- 训练集:
stage2/train_stage2.parquet。 - 验证集:
stage2/valid_stage2.parquet。 - 测试集:
stage2/test_stage2.parquet。
- 训练集:
- Sample:
- 验证集:
stage2/valid_stage2.parquet。
- 验证集:
- Stage 1:
数据集加载
- 示例代码:
-
加载 Stage 1 数据集: python from datasets import load_dataset stage1_data = load_dataset("LongSafari/open-genome", stage1) stage_1_train_data = stage1_data[train]
-
加载 Sample 数据集: python sample_data = load_dataset("LongSafari/open-genome", sample)[validation]
-
注意事项
- Stage 1 训练数据集由于其大小被分片为多个文件。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于基因组学文本生成的英文数据集,采用Apache 2.0许可证,包含约1485万行数据,总大小为147 GB。数据集分为两个阶段:stage1提供8k上下文长度,stage2提供131k上下文长度,每个阶段都包含训练、验证和测试划分,适用于长上下文处理和生物信息学分析任务。
以上内容由遇见数据集搜集并总结生成



