dev_plantcad2_ft_long_ctx

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/plantcad/dev_plantcad2_ft_long_ctx

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是一个用于基因组学研究的DNA序列集合，专注于植物顺式调控元件（ACR）的识别与跨物种预测任务。数据集包含两大主要配置组：第一组为“细胞类型特异性ACR”数据，提供五种不同长度（2000、4000、8000、16000、32000碱基对）的序列窗口配置，每个样本包含染色体标识符（chr）、起始位置（start）、终止位置（end）、DNA序列（sequence）和字符串分类标签（label），并划分为标准训练集、验证集和测试集；第二组为“跨物种ACR预测（以拟南芥训练）”数据，同样提供多种序列长度配置，包含物种名称（species）、元件类型（type）和整数标签（label），训练和验证集基于拟南芥，测试集涵盖多个其他植物物种（如二穗短柄草、盐芥、大豆、大麦、水稻、菜豆、毛果杨、青狗尾草和高粱），专为评估模型跨物种泛化能力而设计。数据集规模庞大，不同配置的总样本量从数百万到数千万不等，适用于开发和应用深度学习模型进行基因组序列的功能注释与比较基因组学研究。

This dataset is a collection of DNA sequences for genomics research, focusing on the identification and cross-species prediction of plant cis-regulatory elements (ACRs). It consists of two main configuration groups: the first group is cell type-specific ACR data, providing five different sequence window lengths (2000, 4000, 8000, 16000, 32000 base pairs), with each sample including chromosome identifier (chr), start position, end position, DNA sequence (sequence), and a string classification label (label), divided into standard training, validation, and test sets; the second group is cross-species ACR prediction (trained on Arabidopsis) data, also offering multiple sequence length configurations, containing species name (species), element type (type), and an integer label (label), with training and validation sets based on Arabidopsis, and test sets covering multiple other plant species (such as Brachypodium distachyon, Eutrema salsugineum, Glycine max, Hordeum vulgare, Oryza sativa, Phaseolus vulgaris, Populus trichocarpa, Setaria viridis, and Sorghum bicolor), designed to evaluate model cross-species generalization capabilities. The dataset is large-scale, with total sample sizes ranging from millions to tens of millions across different configurations, suitable for developing and applying deep learning models for functional annotation of genomic sequences and comparative genomics research.

创建时间：

2026-06-30

原始信息汇总

数据集概述：dev_plantcad2_ft_long_ctx

该数据集是一个多配置的植物基因组数据集，主要用于训练和评估与染色质可及性（ACR，Accessible Chromatin Regions）和基因表达相关的模型。

数据集配置 (Configs)

数据集包含三大类共15种配置，涵盖了不同窗口长度和训练策略。

1. `cell_type_specific_acr` (细胞类型特异性ACR)

目的: 用于预测特定细胞类型内的染色质可及性区域。
特征: 包含 chr (染色体), start, end (坐标), sequence (序列), label (标签)。
窗口长度选项: 2kbp, 4kbp, 8kbp, 16kbp, 32kbp。
数据划分: 每个配置均包含 train, validation, test 三个子集。

2. `cross_species_acr_train_on_arabidopsis` (跨物种ACR，以拟南芥为训练集)

目的: 在拟南芥上训练模型，预测其他植物物种的染色质可及性区域。
特征: 包含 chr, start, end, type, species (物种), sequence, label。
窗口长度选项: 2kbp, 4kbp, 8kbp, 16kbp, 32kbp。
数据划分: 训练集 (train) 和验证集 (validation) 来自拟南芥，测试集包含多个其他物种，如短柄草、盐芥、大豆、大麦、水稻、菜豆、毛果杨、狗尾草、高粱。

3. `cross_species_acr_train_on_nine_species` (跨物种ACR，以九个物种为训练集)

目的: 在除大麦外的九个物种上训练，预测大麦的染色质可及性区域。
特征: 包含 chr, start, end, type, species, sequence, label。
窗口长度选项: 2kbp, 4kbp, 8kbp, 16kbp, 32kbp。
数据划分: 训练集 (train) 为多物种混合，验证集 (validation) 为独立集，测试集 (test_hordeum_vulgare) 专门用于大麦。

4. `cross_species_leaf_absolute_expression` (跨物种叶片绝对表达量)

目的: 用于预测叶片中的基因绝对表达水平。
特征: 包含 genome (基因组), id, seqid, start, end, strand, orthogroup, label (浮点型表达值), sequence。
窗口长度选项: 16,384bp, 32,768bp。
数据划分:
- 16,384bp配置: 包含 train, validation, test 子集。
- 32,768bp配置: 仅包含 test 子集。

数据规模摘要

配置类型	窗口长度	下载大小 (约)	数据集总大小 (约)	训练样本数 (约)	验证样本数 (约)	测试样本数 (约)
`cell_type_specific_acr`	2kbp	3.16 GB	7.20 GB	2,515,749	628,922	243,703
`cell_type_specific_acr`	4kbp	6.30 GB	13.96 GB	2,513,614	628,386	243,515
`cell_type_specific_acr`	8kbp	12.41 GB	27.46 GB	2,509,757	627,392	243,115
`cell_type_specific_acr`	16kbp	25.01 GB	54.35 GB	2,502,915	625,680	242,416
`cell_type_specific_acr`	32kbp	28.33 GB	61.46 GB	1,672,077	-	241,207
`cross_species_acr_arabidopsis`	2kbp	6.51 GB	26.23 GB	147,565	43,077	多个物种 (见原文)
`cross_species_acr_arabidopsis`	4kbp	13.35 GB	53.20 GB	147,526	43,078	多个物种 (见原文)
`cross_species_acr_arabidopsis`	8kbp	31.79 GB	104.70 GB	147,432	43,066	多个物种 (见原文)
`cross_species_acr_arabidopsis`	16kbp	74.45 GB	206.78 GB	147,424	43,055	多个物种 (见原文)
`cross_species_acr_arabidopsis`	32kbp	164.42 GB	409.39 GB	147,234	43,018	多个物种 (见原文)
`cross_species_acr_nine_species`	2kbp	6.81 GB	26.23 GB	5,204,754	578,384	6,907,564 (大麦)
`cross_species_acr_nine_species`	4kbp	13.86 GB	53.20 GB	5,630,100	626,434	6,825,874 (大麦)
`cross_species_acr_nine_species`	8kbp	32.38 GB	104.70 GB	5,571,227	617,123	6,791,411 (大麦)
`cross_species_acr_nine_species`	16kbp	74.68 GB	206.78 GB	5,500,915	612,092	6,756,995 (大麦)
`cross_species_acr_nine_species`	32kbp	164.40 GB	409.39 GB	5,422,336	604,024	6,740,618 (大麦)
`cross_species_leaf_abs_expr`	16,384bp	14.42 GB	31.25 GB	1,002,854	11,832	880,475
`cross_species_leaf_abs_expr`	32,768bp	13.32 GB	28.86 GB	-	-	878,384

搜集汇总

数据集介绍

构建方式

在植物基因组学与深度学习交叉融合的浪潮中，dev_plantcad2_ft_long_ctx数据集应运而生。该数据集通过整合拟南芥、大麦、大豆等十余种植物物种的基因组序列，系统性地提取了染色质可及性区域（ACR）及叶片绝对表达量相关的调控元件。构建过程采用多尺度窗口策略，分别以2000bp、4000bp、8000bp、16000bp及32000bp为滑动窗口长度，从参考基因组中截取对应长度的DNA序列，并依据细胞类型特异性或跨物种视角对每个片段标注其是否属于活性调控区域。叶片表达量数据则进一步关联了同源基因簇与表达水平，形成了涵盖二分类与连续回归任务的多模态数据集。

特点

该数据集的核心特点在于其多维度的生物学覆盖与精细化的尺度设计。一方面，数据集细分为细胞型特异性ACR与跨物种ACR两大板块，前者专注于单一物种内不同细胞类型的调控差异，后者则跨越九个植物物种，提供了从模式植物到作物物种的泛化性基准。另一方面，窗口长度从2kb至32kb的多样梯度设计，使得模型能够捕捉从局部基序到长程调控相互作用的多层级序列模式。尤为突出的是，跨物种分支中包含了针对外显子、内含子、启动子等不同类型的精细标注，为深入解析植物基因调控网络的保守性与特异性提供了丰富资源。

使用方法

在应用层面，研究者可通过HuggingFace Datasets库加载此数据集，并依据任务需求选择对应的配置项（config_name）与数据划分（split）。对于细胞型特异性ACR任务，可直接调用如cell_type_specific_acr_2000bp配置，并使用'train'、'validation'、'test'划分进行模型训练与评估。跨物种场景下，建议采用cross_species_acr_train_on_arabidopsis系列配置，利用拟南芥训练集微调模型后，再在多个目标物种的测试集上验证跨物种泛化能力。叶片表达量预测任务则支持基于orthogroup特征的回归建模，其中4096bp与16384bp长度的配置适合不同计算资源条件下的模型部署。

背景与挑战

背景概述

该数据集由植物基因组学领域的相关研究团队创建，旨在利用深度学习技术探索植物非编码区中染色质可及性区域与基因表达调控之间的关系。植物基因组中蕴含着复杂的调控机制，其中染色质可及性区域（ACR）作为顺式调控元件的重要组成部分，在细胞类型特异性表达和跨物种保守性方面扮演关键角色。通过系统性地整合拟南芥等多种植物物种的ATAC-seq数据，数据集覆盖了2000bp至32000bp不等的序列窗口，为训练长序列基因组语言模型提供了高质量标注资源。这一资源的问世，为深入解析植物基因调控网络、推动作物功能基因组学研究奠定了坚实基础。

当前挑战

当前数据集面临多层面挑战。在领域问题层面，植物基因组非编码区功能注释高度不足，不同物种间ACR保守性与细胞类型特异性调控机制尚不明确，亟需通过跨物种迁移学习来揭示泛植物界共通的调控语法。在构建过程中，跨物种序列比对面临较大的系统发育距离差异，需统一处理基因组坐标与注释标准；同时，长序列窗口下的计算资源消耗与训练稳定性构成技术瓶颈，如何平衡序列长度与模型效能成为关键难点。

常用场景

经典使用场景

在植物基因组学研究中，染色质可及性区域（ACR）的精准鉴定是理解基因调控网络的关键。dev_plantcad2_ft_long_ctx数据集专为长序列上下文的深度学习模型设计，常用于训练和评估能够从DNA序列中预测细胞类型特异性ACR的模型。该数据集提供了从2000bp至32000bp多种序列长度的配置，使研究者能够探索不同上下文窗口对ACR预测精度的影响，从而优化模型架构以捕捉更远端的调控元件。

衍生相关工作

基于该数据集诞生的代表性工作包括多尺度卷积神经网络与Transformer混合架构，它们利用长序列配置实现了对远端增强子的识别。跨物种零样本预测任务也催生了对比学习和域自适应方法的改进，显著拓展了模型在非模式植物上的泛化能力。这些衍生工作共同推进了植物调控组学的计算范式，使得大规模、高通量的调控元件注释成为可能。

数据集最近研究