space

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/yangyz1230/space

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从原始Basenji项目中转换而来的，原始数据集以TensorFlow格式存储，不兼容PyTorch工作流程。为了方便PyTorch训练，数据已被转换为H5格式并免费提供。数据集包含人类和小鼠的训练、验证和测试数据集。由于文件大小超过50GB，训练文件被分割为多个部分以便上传和下载，使用时需要重新组合这些部分文件以恢复原始的H5文件。

创建时间：

2025-06-04

原始信息汇总

数据集概述

基本信息

数据集名称：Basenji项目转换数据
领域：生物学
原始数据来源：Basenji项目Google Cloud存储
数据格式转换：从TensorFlow格式转换为H5格式

数据集特点

格式兼容性：专为PyTorch工作流程优化的H5格式
访问成本：免费提供（原始数据需支付Google Cloud存储费用）

文件结构

人类数据

human_train.h5
human_valid.h5
human_test.h5

小鼠数据

mouse_train.h5
mouse_valid.h5
mouse_test.h5

大文件处理

分割方式：使用split命令将超过50GB的训练文件分割为45GB的分块
重建方法：使用cat命令合并分块文件恢复原始H5文件

引用要求

必须同时引用：

原始Basenji论文：

@article{kelley2018sequential, title={Sequential regulatory activity prediction across chromosomes with convolutional neural networks}, author={Kelley, David R and Reshef, Yakir A and Bileschi, Maxwell and Belanger, David and McLean, Cory Y and Snoek, Jasper}, journal={Genome research}, volume={28}, number={5}, pages={739--750}, year={2018}, publisher={Cold Spring Harbor Lab} }
本数据集相关工作：

@misc{yang2025spacegenomicprofilepredictor, title={SPACE: Your Genomic Profile Predictor is a Powerful DNA Foundation Model}, author={Zhao Yang and Jiwei Zhu and Bing Su}, year={2025}, eprint={2506.01833}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2506.01833} }

搜集汇总

数据集介绍

构建方式

在基因组学研究中，数据格式的兼容性与获取成本常构成技术壁垒。Space数据集源于Basenji项目，原始数据以TensorFlow格式存储于谷歌云平台，存在格式局限性与经济负担。为促进PyTorch生态的应用，研究团队将原始数据转换为H5格式，经原作者授权后公开发布，有效解决了跨框架协作与访问成本的双重挑战。

特点

该数据集涵盖人类与小鼠两大模式生物的基因组调控数据，包含训练集、验证集与测试集的完整划分。其显著特征在于采用高效压缩的H5格式存储，既保障了大规模序列数据的完整性，又适配现代深度学习流水线。由于单文件体积超50GB，数据集通过分块方式上传，用户需按指引进行本地重组，体现了海量生物数据分发的工程巧思。

使用方法

使用者需先行下载分块文件，通过命令行操作重组为完整H5文件。重组后的数据可直接接入PyTorch框架，用于训练卷积神经网络预测基因组调控功能。该数据集特别适用于跨染色体序列建模任务，为DNA基础模型研究提供标准化输入。引用时需同时注明原始Basenji论文与本数据集转换工作，以遵循学术规范。

背景与挑战

背景概述

基因组学研究中，DNA序列调控活性的精准预测一直是核心科学问题。2018年，David R. Kelley及其团队在《Genome Research》发表了Basenji项目，通过卷积神经网络实现了跨染色体的序列调控活性预测，为基因组功能注释提供了重要工具。该项目由冷泉港实验室出版，显著推动了计算生物学与深度学习在基因组学中的融合，为后续研究奠定了坚实基础。

当前挑战

该数据集主要挑战在于解决DNA序列调控预测中的高维数据处理与跨物种泛化问题。原始数据采用TensorFlow格式存储，与主流PyTorch框架不兼容，且用户需承担谷歌云存储费用，限制了数据可及性。构建过程中，团队面临大规模H5文件（超50GB）的存储与传输难题，需通过分块与重组技术实现高效分发，同时确保数据完整性与格式一致性。

常用场景

经典使用场景

在基因组学研究中，SPACE数据集为深度学习模型提供了大规模染色质可及性数据，支持跨染色体序列调控活动预测。研究人员利用该数据集训练卷积神经网络，分析人类和小鼠基因组中非编码区域的功能性元素，揭示基因表达调控机制。

衍生相关工作

基于该数据集衍生的经典工作包括Basenji框架的序列调控预测模型，以及SPACE论文提出的DNA基础模型。这些成果推动了基因组深度学习从特定任务向通用表征学习的范式转变，催生了多个跨物种保守性分析和进化研究的重要项目。

数据集最近研究