InstaDeepAI/plant-genomic-benchmark
收藏Hugging Face2024-06-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/InstaDeepAI/plant-genomic-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是AgroNT论文中提出的8个评估任务的数据集,涵盖了单输出回归、多输出回归、二元分类和多标签分类任务,旨在提供一个全面的植物基因组学基准。此外,数据集还包括对木薯基因组序列的计算机模拟饱和突变分析结果,评估了超过1000万次突变对基因表达水平和增强子元件的影响。数据集包含多个物种的数据,每个任务的数据集大小和序列长度也有所不同。
该数据集是AgroNT论文中提出的8个评估任务的数据集,涵盖了单输出回归、多输出回归、二元分类和多标签分类任务,旨在提供一个全面的植物基因组学基准。此外,数据集还包括对木薯基因组序列的计算机模拟饱和突变分析结果,评估了超过1000万次突变对基因表达水平和增强子元件的影响。数据集包含多个物种的数据,每个任务的数据集大小和序列长度也有所不同。
提供机构:
InstaDeepAI
原始信息汇总
数据集概述
本数据集包含8个评估任务,这些任务涵盖了单输出回归、多输出回归、二分类和多标签分类,旨在提供一个全面的植物基因组学基准。此外,数据集还包括了木薯基因组序列的体外饱和突变分析结果,评估了超过1000万个突变对基因表达水平和增强子元件的影响。
数据集详细信息
| 名称 | # 数据集数量(物种) | 任务类型 | 序列长度(碱基对) |
|---|---|---|---|
| Polyadenylation | 6 | 二分类 | 400 |
| Splice Site | 2 | 二分类 | 398 |
| LncRNA | 6 | 二分类 | 101-6000 |
| Promoter Strength | 2 | 单变量回归 | 170 |
| Terminator Strength | 2 | 单变量回归 | 170 |
| Chromatin Accessibility | 7 | 多标签分类 | 1000 |
| Gene Expression | 6 | 多变量回归 | 6000 |
| Enhancer Region | 1 | 二分类 | 1000 |
数据集大小
| 任务名称 | # 训练样本 | # 验证样本 | # 测试样本 |
|---|---|---|---|
| poly_a.arabidopsis_thaliana | 170835 | --- | 30384 |
| poly_a.oryza_sativa_indica_group | 98139 | --- | 16776 |
| poly_a.trifolium_pratense | 111138 | --- | 13746 |
| poly_a.medicago_truncatula | 47277 | --- | 8850 |
| poly_a.chlamydomonas_reinhardtii | 90378 | --- | 10542 |
| poly_a.oryza_sativa_japonica_group | 120621 | --- | 20232 |
| splicing.arabidopsis_thaliana_donor | 2588034 | --- | 377873 |
| splicing.arabidopsis_thaliana_acceptor | 1704844 | --- | 250084 |
| lncrna.m_esculenta | 4934 | --- | 360 |
| lncrna.z_mays | 8423 | --- | 1629 |
| lncrna.g_max | 11430 | --- | 490 |
| lncrna.s_lycopersicum | 7274 | --- | 1072 |
| lncrna.t_aestivum | 11252 | --- | 1810 |
| lncrna.s_bicolor | 8654 | --- | 734 |
| promoter_strength.leaf | 58179 | 6825 | 7154 |
| promoter_strength.protoplast | 61051 | 7162 | 7595 |
| terminator_strength.leaf | 43294 | 5309 | 4806 |
| terminator_strength.protoplast | 43289 | 5309 | 4811 |
| gene_exp.glycine_max | 47136 | 4803 | 4803 |
| gene_exp.oryza_sativa | 31244 | 3702 | 3702 |
| gene_exp.solanum_lycopersicum | 27321 | 3827 | 3827 |
| gene_exp.zea_mays | 34493 | 4483 | 4483 |
| gene_exp.arabidopsis_thaliana | 25731 | 3401 | 3402 |
| chromatin_access.oryza_sativa_MH63_RS2 | 5120000 | 14848 | 14848 |
| chromatin_access.setaria_italica | 5120000 | 19968 | 19968 |
| chromatin_access.oryza_sativa_ZS97_RS2 | 5120000 | 14848 | 14848 |
| chromatin_access.arabidopis_thaliana | 5120000 | 9984 | 9984 |
| chromatin_access.brachypodium_distachyon | 5120000 | 14848 | 14848 |
| chromatin_access.sorghum_bicolor | 5120000 | 29952 | 29952 |
| chromatin_access.zea_mays | 6400000 | 79872 | 79872 |
| pro_seq.m_esculenta | 16852 | 1229 | 812 |
数据集使用示例
python from datasets import load_dataset
task_name=terminator_strength.protoplast # 从上述表格中选择一个任务名称
dataset = load_dataset("InstaDeepAI/plant-genomic-benchmark",task_name=task_name)
体外饱和突变分析(ISM)数据结构
ISM_Tables/Mesculenta_305_v6_PROseq_ISM_LOG2FC.txt.gz
- 基于Lozano et al. 2021的基因间增强子区域
- 基因组版本:Phytozome的Manihot esculenta参考基因组v6.1
- 字段:CHR, POS, REF, ALT, LOG2FC
ISM_Tables/Mesculenta_v6_GeneExpression_ISM_LOG2FC.txt.gz
- 基于Wilson et al. 2016的基因表达预测
- 基因组版本:Ensembl 56的Manihot esculenta参考基因组v6
- 字段:CHR, POS, REF, ALT, GENE, STRAND, TISSUE, LOG2FC
搜集汇总
数据集介绍

构建方式
在植物基因组学领域,构建综合性基准数据集对于评估模型性能至关重要。该数据集围绕AgroNT论文中提出的八项评估任务展开,涵盖了从单输出回归到多标签分类的多种任务类型,旨在全面评估植物基因组序列的功能特性。数据集的构建基于多个植物物种的基因组序列,通过精心设计的实验和计算分析,如计算机饱和突变分析,系统地收集了超过千万个突变对基因表达和增强子元件的影响数据。每个任务的数据均经过严格的质量控制,确保序列长度和样本划分的科学性,为后续的模型训练与评估提供了可靠的基础。
使用方法
使用该数据集时,研究人员可通过HuggingFace的datasets库便捷加载特定任务数据。例如,选择任务名称如'terminator_strength.protoplast',调用load_dataset函数即可获取相应的训练、验证和测试集,便于快速进行模型微调或性能评估。对于小样本任务如lncRNA识别,建议合并多个物种数据集以提升学习效果。数据集还提供计算机饱和突变分析文件,用户可基于LOG2FC值分析突变效应,或利用附带的图表数据复现论文结果。这种模块化设计使得数据集易于集成到现有工作流中,支持植物基因组学领域的算法开发与比较研究。
背景与挑战
背景概述
随着计算生物学与人工智能的深度融合,植物基因组学领域亟需标准化、多任务的评估基准以推动基础模型的发展。InstaDeepAI/plant-genomic-benchmark数据集由InstaDeep研究团队于2024年构建,旨在为可食用植物基因组的大语言模型AgroNT提供全面的评测框架。该数据集涵盖了多聚腺苷酸化、剪接位点识别、长链非编码RNA预测、启动子与终止子强度评估、染色质可及性分析、基因表达调控及增强子区域检测等八项核心任务,涉及多种植物物种,序列长度从101至6000碱基对不等。通过整合回归与分类任务,该基准不仅促进了植物基因组功能元件的精准解码,也为农业生物技术与作物改良研究提供了关键的数据支撑。
当前挑战
在植物基因组学领域,精准解析非编码区功能元件与基因表达调控机制仍面临巨大挑战,例如剪接位点的动态识别、增强子-启动子互作的复杂建模,以及跨物种基因组序列的异质性处理。数据集的构建过程同样困难重重:需从多源基因组数据中统一标注标准,处理不同物种间序列长度与数据规模的显著差异,并确保小样本任务(如长链非编码RNA预测)的模型泛化能力。此外,体外饱和突变分析涉及超过千万次突变模拟,对计算资源与数据一致性提出了极高要求。
常用场景
经典使用场景
在植物基因组学领域,InstaDeepAI/plant-genomic-benchmark数据集作为综合性评估基准,其经典使用场景聚焦于训练和验证深度学习模型对植物基因组序列的预测能力。该数据集整合了八项任务,涵盖多物种的启动子强度、剪接位点识别、基因表达调控等关键生物学过程,为研究人员提供了标准化的测试平台,以系统评估模型在回归与分类任务上的泛化性能。
解决学术问题
该数据集有效解决了植物基因组学中序列功能注释的标准化评估难题,通过统一的多任务框架,促进了机器学习模型在非模式植物物种上的适应性研究。其意义在于弥合了计算生物学与农业基因组学之间的鸿沟,为解析复杂性状的遗传基础提供了可重复的基准,推动了跨物种基因组功能预测方法的发展。
实际应用
在实际应用中,该数据集支撑了作物改良与精准农业的决策过程。例如,通过预测基因表达水平和染色质可及性,可辅助设计高产量或抗逆性作物品种;其增强子区域与突变影响分析数据,则为基因编辑技术的靶点优化提供了理论依据,加速了从基因组序列到农艺性状的转化研究。
数据集最近研究
最新研究方向
在植物基因组学领域,随着AgroNT等基础大语言模型的兴起,InstaDeepAI/plant-genomic-benchmark数据集已成为评估模型性能的关键工具。该数据集整合了多物种的八项任务,涵盖从基因表达预测到染色质可及性分析,为研究非编码RNA功能与调控机制提供了标准化平台。前沿研究聚焦于利用深度学习模型解析木薯基因组中超过千万突变对增强子活性的影响,探索基因编辑与作物性状改良的潜在关联。这些进展不仅推动了精准农业的发展,也为应对全球粮食安全挑战提供了数据驱动的科学依据。
以上内容由遇见数据集搜集并总结生成



