InstaDeepAI/plant-genomic-benchmark

Name: InstaDeepAI/plant-genomic-benchmark
Creator: InstaDeepAI
Published: 2024-06-02 13:16:35
License: 暂无描述

Hugging Face2024-06-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/InstaDeepAI/plant-genomic-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是AgroNT论文中提出的8个评估任务的数据集，涵盖了单输出回归、多输出回归、二元分类和多标签分类任务，旨在提供一个全面的植物基因组学基准。此外，数据集还包括对木薯基因组序列的计算机模拟饱和突变分析结果，评估了超过1000万次突变对基因表达水平和增强子元件的影响。数据集包含多个物种的数据，每个任务的数据集大小和序列长度也有所不同。

提供机构：

InstaDeepAI

原始信息汇总

数据集概述

本数据集包含8个评估任务，这些任务涵盖了单输出回归、多输出回归、二分类和多标签分类，旨在提供一个全面的植物基因组学基准。此外，数据集还包括了木薯基因组序列的体外饱和突变分析结果，评估了超过1000万个突变对基因表达水平和增强子元件的影响。

数据集详细信息

名称	# 数据集数量(物种)	任务类型	序列长度(碱基对)
Polyadenylation	6	二分类	400
Splice Site	2	二分类	398
LncRNA	6	二分类	101-6000
Promoter Strength	2	单变量回归	170
Terminator Strength	2	单变量回归	170
Chromatin Accessibility	7	多标签分类	1000
Gene Expression	6	多变量回归	6000
Enhancer Region	1	二分类	1000

数据集大小

任务名称	# 训练样本	# 验证样本	# 测试样本
poly_a.arabidopsis_thaliana	170835	---	30384
poly_a.oryza_sativa_indica_group	98139	---	16776
poly_a.trifolium_pratense	111138	---	13746
poly_a.medicago_truncatula	47277	---	8850
poly_a.chlamydomonas_reinhardtii	90378	---	10542
poly_a.oryza_sativa_japonica_group	120621	---	20232
splicing.arabidopsis_thaliana_donor	2588034	---	377873
splicing.arabidopsis_thaliana_acceptor	1704844	---	250084
lncrna.m_esculenta	4934	---	360
lncrna.z_mays	8423	---	1629
lncrna.g_max	11430	---	490
lncrna.s_lycopersicum	7274	---	1072
lncrna.t_aestivum	11252	---	1810
lncrna.s_bicolor	8654	---	734
promoter_strength.leaf	58179	6825	7154
promoter_strength.protoplast	61051	7162	7595
terminator_strength.leaf	43294	5309	4806
terminator_strength.protoplast	43289	5309	4811
gene_exp.glycine_max	47136	4803	4803
gene_exp.oryza_sativa	31244	3702	3702
gene_exp.solanum_lycopersicum	27321	3827	3827
gene_exp.zea_mays	34493	4483	4483
gene_exp.arabidopsis_thaliana	25731	3401	3402
chromatin_access.oryza_sativa_MH63_RS2	5120000	14848	14848
chromatin_access.setaria_italica	5120000	19968	19968
chromatin_access.oryza_sativa_ZS97_RS2	5120000	14848	14848
chromatin_access.arabidopis_thaliana	5120000	9984	9984
chromatin_access.brachypodium_distachyon	5120000	14848	14848
chromatin_access.sorghum_bicolor	5120000	29952	29952
chromatin_access.zea_mays	6400000	79872	79872
pro_seq.m_esculenta	16852	1229	812

数据集使用示例

python from datasets import load_dataset

task_name=terminator_strength.protoplast # 从上述表格中选择一个任务名称

dataset = load_dataset("InstaDeepAI/plant-genomic-benchmark",task_name=task_name)

体外饱和突变分析(ISM)数据结构

ISM_Tables/Mesculenta_305_v6_PROseq_ISM_LOG2FC.txt.gz

基于Lozano et al. 2021的基因间增强子区域
基因组版本：Phytozome的Manihot esculenta参考基因组v6.1
字段：CHR, POS, REF, ALT, LOG2FC

ISM_Tables/Mesculenta_v6_GeneExpression_ISM_LOG2FC.txt.gz

基于Wilson et al. 2016的基因表达预测
基因组版本：Ensembl 56的Manihot esculenta参考基因组v6
字段：CHR, POS, REF, ALT, GENE, STRAND, TISSUE, LOG2FC

搜集汇总

数据集介绍

构建方式

在植物基因组学领域，构建综合性基准数据集对于评估模型性能至关重要。该数据集围绕AgroNT论文中提出的八项评估任务展开，涵盖了从单输出回归到多标签分类的多种任务类型，旨在全面评估植物基因组序列的功能特性。数据集的构建基于多个植物物种的基因组序列，通过精心设计的实验和计算分析，如计算机饱和突变分析，系统地收集了超过千万个突变对基因表达和增强子元件的影响数据。每个任务的数据均经过严格的质量控制，确保序列长度和样本划分的科学性，为后续的模型训练与评估提供了可靠的基础。

使用方法

使用该数据集时，研究人员可通过HuggingFace的datasets库便捷加载特定任务数据。例如，选择任务名称如'terminator_strength.protoplast'，调用load_dataset函数即可获取相应的训练、验证和测试集，便于快速进行模型微调或性能评估。对于小样本任务如lncRNA识别，建议合并多个物种数据集以提升学习效果。数据集还提供计算机饱和突变分析文件，用户可基于LOG2FC值分析突变效应，或利用附带的图表数据复现论文结果。这种模块化设计使得数据集易于集成到现有工作流中，支持植物基因组学领域的算法开发与比较研究。

背景与挑战

背景概述

随着计算生物学与人工智能的深度融合，植物基因组学领域亟需标准化、多任务的评估基准以推动基础模型的发展。InstaDeepAI/plant-genomic-benchmark数据集由InstaDeep研究团队于2024年构建，旨在为可食用植物基因组的大语言模型AgroNT提供全面的评测框架。该数据集涵盖了多聚腺苷酸化、剪接位点识别、长链非编码RNA预测、启动子与终止子强度评估、染色质可及性分析、基因表达调控及增强子区域检测等八项核心任务，涉及多种植物物种，序列长度从101至6000碱基对不等。通过整合回归与分类任务，该基准不仅促进了植物基因组功能元件的精准解码，也为农业生物技术与作物改良研究提供了关键的数据支撑。

当前挑战

在植物基因组学领域，精准解析非编码区功能元件与基因表达调控机制仍面临巨大挑战，例如剪接位点的动态识别、增强子-启动子互作的复杂建模，以及跨物种基因组序列的异质性处理。数据集的构建过程同样困难重重：需从多源基因组数据中统一标注标准，处理不同物种间序列长度与数据规模的显著差异，并确保小样本任务（如长链非编码RNA预测）的模型泛化能力。此外，体外饱和突变分析涉及超过千万次突变模拟，对计算资源与数据一致性提出了极高要求。

常用场景

经典使用场景

在植物基因组学领域，InstaDeepAI/plant-genomic-benchmark数据集作为综合性评估基准，其经典使用场景聚焦于训练和验证深度学习模型对植物基因组序列的预测能力。该数据集整合了八项任务，涵盖多物种的启动子强度、剪接位点识别、基因表达调控等关键生物学过程，为研究人员提供了标准化的测试平台，以系统评估模型在回归与分类任务上的泛化性能。

解决学术问题

该数据集有效解决了植物基因组学中序列功能注释的标准化评估难题，通过统一的多任务框架，促进了机器学习模型在非模式植物物种上的适应性研究。其意义在于弥合了计算生物学与农业基因组学之间的鸿沟，为解析复杂性状的遗传基础提供了可重复的基准，推动了跨物种基因组功能预测方法的发展。

实际应用

在实际应用中，该数据集支撑了作物改良与精准农业的决策过程。例如，通过预测基因表达水平和染色质可及性，可辅助设计高产量或抗逆性作物品种；其增强子区域与突变影响分析数据，则为基因编辑技术的靶点优化提供了理论依据，加速了从基因组序列到农艺性状的转化研究。

数据集最近研究