five

InstaDeepAI/plant-genomic-benchmark

收藏
Hugging Face2024-06-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/InstaDeepAI/plant-genomic-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是AgroNT论文中提出的8个评估任务的数据集,涵盖了单输出回归、多输出回归、二元分类和多标签分类任务,旨在提供一个全面的植物基因组学基准。此外,数据集还包括对木薯基因组序列的计算机模拟饱和突变分析结果,评估了超过1000万次突变对基因表达水平和增强子元件的影响。数据集包含多个物种的数据,每个任务的数据集大小和序列长度也有所不同。

该数据集是AgroNT论文中提出的8个评估任务的数据集,涵盖了单输出回归、多输出回归、二元分类和多标签分类任务,旨在提供一个全面的植物基因组学基准。此外,数据集还包括对木薯基因组序列的计算机模拟饱和突变分析结果,评估了超过1000万次突变对基因表达水平和增强子元件的影响。数据集包含多个物种的数据,每个任务的数据集大小和序列长度也有所不同。
提供机构:
InstaDeepAI
原始信息汇总

数据集概述

本数据集包含8个评估任务,这些任务涵盖了单输出回归、多输出回归、二分类和多标签分类,旨在提供一个全面的植物基因组学基准。此外,数据集还包括了木薯基因组序列的体外饱和突变分析结果,评估了超过1000万个突变对基因表达水平和增强子元件的影响。

数据集详细信息

名称 # 数据集数量(物种) 任务类型 序列长度(碱基对)
Polyadenylation 6 二分类 400
Splice Site 2 二分类 398
LncRNA 6 二分类 101-6000
Promoter Strength 2 单变量回归 170
Terminator Strength 2 单变量回归 170
Chromatin Accessibility 7 多标签分类 1000
Gene Expression 6 多变量回归 6000
Enhancer Region 1 二分类 1000

数据集大小

任务名称 # 训练样本 # 验证样本 # 测试样本
poly_a.arabidopsis_thaliana 170835 --- 30384
poly_a.oryza_sativa_indica_group 98139 --- 16776
poly_a.trifolium_pratense 111138 --- 13746
poly_a.medicago_truncatula 47277 --- 8850
poly_a.chlamydomonas_reinhardtii 90378 --- 10542
poly_a.oryza_sativa_japonica_group 120621 --- 20232
splicing.arabidopsis_thaliana_donor 2588034 --- 377873
splicing.arabidopsis_thaliana_acceptor 1704844 --- 250084
lncrna.m_esculenta 4934 --- 360
lncrna.z_mays 8423 --- 1629
lncrna.g_max 11430 --- 490
lncrna.s_lycopersicum 7274 --- 1072
lncrna.t_aestivum 11252 --- 1810
lncrna.s_bicolor 8654 --- 734
promoter_strength.leaf 58179 6825 7154
promoter_strength.protoplast 61051 7162 7595
terminator_strength.leaf 43294 5309 4806
terminator_strength.protoplast 43289 5309 4811
gene_exp.glycine_max 47136 4803 4803
gene_exp.oryza_sativa 31244 3702 3702
gene_exp.solanum_lycopersicum 27321 3827 3827
gene_exp.zea_mays 34493 4483 4483
gene_exp.arabidopsis_thaliana 25731 3401 3402
chromatin_access.oryza_sativa_MH63_RS2 5120000 14848 14848
chromatin_access.setaria_italica 5120000 19968 19968
chromatin_access.oryza_sativa_ZS97_RS2 5120000 14848 14848
chromatin_access.arabidopis_thaliana 5120000 9984 9984
chromatin_access.brachypodium_distachyon 5120000 14848 14848
chromatin_access.sorghum_bicolor 5120000 29952 29952
chromatin_access.zea_mays 6400000 79872 79872
pro_seq.m_esculenta 16852 1229 812

数据集使用示例

python from datasets import load_dataset

task_name=terminator_strength.protoplast # 从上述表格中选择一个任务名称

dataset = load_dataset("InstaDeepAI/plant-genomic-benchmark",task_name=task_name)

体外饱和突变分析(ISM)数据结构

ISM_Tables/Mesculenta_305_v6_PROseq_ISM_LOG2FC.txt.gz

  • 基于Lozano et al. 2021的基因间增强子区域
  • 基因组版本:Phytozome的Manihot esculenta参考基因组v6.1
  • 字段:CHR, POS, REF, ALT, LOG2FC

ISM_Tables/Mesculenta_v6_GeneExpression_ISM_LOG2FC.txt.gz

  • 基于Wilson et al. 2016的基因表达预测
  • 基因组版本:Ensembl 56的Manihot esculenta参考基因组v6
  • 字段:CHR, POS, REF, ALT, GENE, STRAND, TISSUE, LOG2FC
搜集汇总
数据集介绍
main_image_url
构建方式
在植物基因组学领域,构建综合性基准数据集对于评估模型性能至关重要。该数据集围绕AgroNT论文中提出的八项评估任务展开,涵盖了从单输出回归到多标签分类的多种任务类型,旨在全面评估植物基因组序列的功能特性。数据集的构建基于多个植物物种的基因组序列,通过精心设计的实验和计算分析,如计算机饱和突变分析,系统地收集了超过千万个突变对基因表达和增强子元件的影响数据。每个任务的数据均经过严格的质量控制,确保序列长度和样本划分的科学性,为后续的模型训练与评估提供了可靠的基础。
使用方法
使用该数据集时,研究人员可通过HuggingFace的datasets库便捷加载特定任务数据。例如,选择任务名称如'terminator_strength.protoplast',调用load_dataset函数即可获取相应的训练、验证和测试集,便于快速进行模型微调或性能评估。对于小样本任务如lncRNA识别,建议合并多个物种数据集以提升学习效果。数据集还提供计算机饱和突变分析文件,用户可基于LOG2FC值分析突变效应,或利用附带的图表数据复现论文结果。这种模块化设计使得数据集易于集成到现有工作流中,支持植物基因组学领域的算法开发与比较研究。
背景与挑战
背景概述
随着计算生物学与人工智能的深度融合,植物基因组学领域亟需标准化、多任务的评估基准以推动基础模型的发展。InstaDeepAI/plant-genomic-benchmark数据集由InstaDeep研究团队于2024年构建,旨在为可食用植物基因组的大语言模型AgroNT提供全面的评测框架。该数据集涵盖了多聚腺苷酸化、剪接位点识别、长链非编码RNA预测、启动子与终止子强度评估、染色质可及性分析、基因表达调控及增强子区域检测等八项核心任务,涉及多种植物物种,序列长度从101至6000碱基对不等。通过整合回归与分类任务,该基准不仅促进了植物基因组功能元件的精准解码,也为农业生物技术与作物改良研究提供了关键的数据支撑。
当前挑战
在植物基因组学领域,精准解析非编码区功能元件与基因表达调控机制仍面临巨大挑战,例如剪接位点的动态识别、增强子-启动子互作的复杂建模,以及跨物种基因组序列的异质性处理。数据集的构建过程同样困难重重:需从多源基因组数据中统一标注标准,处理不同物种间序列长度与数据规模的显著差异,并确保小样本任务(如长链非编码RNA预测)的模型泛化能力。此外,体外饱和突变分析涉及超过千万次突变模拟,对计算资源与数据一致性提出了极高要求。
常用场景
经典使用场景
在植物基因组学领域,InstaDeepAI/plant-genomic-benchmark数据集作为综合性评估基准,其经典使用场景聚焦于训练和验证深度学习模型对植物基因组序列的预测能力。该数据集整合了八项任务,涵盖多物种的启动子强度、剪接位点识别、基因表达调控等关键生物学过程,为研究人员提供了标准化的测试平台,以系统评估模型在回归与分类任务上的泛化性能。
解决学术问题
该数据集有效解决了植物基因组学中序列功能注释的标准化评估难题,通过统一的多任务框架,促进了机器学习模型在非模式植物物种上的适应性研究。其意义在于弥合了计算生物学与农业基因组学之间的鸿沟,为解析复杂性状的遗传基础提供了可重复的基准,推动了跨物种基因组功能预测方法的发展。
实际应用
在实际应用中,该数据集支撑了作物改良与精准农业的决策过程。例如,通过预测基因表达水平和染色质可及性,可辅助设计高产量或抗逆性作物品种;其增强子区域与突变影响分析数据,则为基因编辑技术的靶点优化提供了理论依据,加速了从基因组序列到农艺性状的转化研究。
数据集最近研究
最新研究方向
在植物基因组学领域,随着AgroNT等基础大语言模型的兴起,InstaDeepAI/plant-genomic-benchmark数据集已成为评估模型性能的关键工具。该数据集整合了多物种的八项任务,涵盖从基因表达预测到染色质可及性分析,为研究非编码RNA功能与调控机制提供了标准化平台。前沿研究聚焦于利用深度学习模型解析木薯基因组中超过千万突变对增强子活性的影响,探索基因编辑与作物性状改良的潜在关联。这些进展不仅推动了精准农业的发展,也为应对全球粮食安全挑战提供了数据驱动的科学依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作