neuralbioinfo/bacterial_promoters
收藏数据集卡片 "Promoter Validation Data"
概述
该数据集包含用于遗传研究验证目的的启动子序列,重点关注原核生物启动子。它旨在促进基因表达调控的研究,提供来自各种生物的启动子序列的综合集合。
数据集包括从原核生物启动子数据库(PPD)中检索的75个生物的已知启动子序列,以及从NCBI RefSeq数据库(特别是从CDS区域采样)获得的非启动子序列。还包括通过高阶和零阶马尔可夫链构建的非启动子序列,这些序列反映了已知启动子的组成特征。此外,还包括一个独立的测试集,专注于E. coli sigma70启动子,由Cassiano和Silva-Rocha(2020)策划。
采用平衡分布方法,使正负样本数量均匀,数据集被系统地划分为训练、验证和测试子集。这种分层奠定了模型效能彻底评估的基础。
数据集描述
数据收集和处理
- 数据来源:正样本,已知启动子,主要来自原核生物启动子数据库(PPD),包含75个生物的实验验证启动子序列。非启动子序列来自NCBI RefSeq数据库,特别是从CDS区域采样。
- 预处理:数据集包括通过高阶和零阶马尔可夫链构建的非启动子序列,这些序列反映了已知启动子的组成特征。还包括一个基于_E.coli_ sigma70启动子的独立测试集。
数据集结构
- 数据集划分:数据集被系统地划分为训练、验证和测试子集。
- 数据字段:
segment_id:每个片段的唯一标识符。ppd_original_SpeciesName:PPD中的原始物种名称。Strand:DNA序列的链。segment:启动子区域的DNA序列。label:指示序列是启动子还是非启动子的标签。L:DNA序列的长度。prom_class:启动子的类别。y:指示启动子存在的二进制标签。
数据划分和利用
为了确保全面评估,数据集被随机划分为三个部分:
- 训练集:总数据的80%,用于模型开发和训练。
- 验证集:数据的10%,有助于微调模型参数。
- 测试集:剩余的10%数据,对模型性能进行无偏评估至关重要。
数据集划分
- 训练集:用于模型训练的主要数据集。
- 测试集(Sigma70):专注于_E.coli_ sigma70启动子的独立测试集。
- 多物种集:包括各种物种的附加测试集,确保在不同生物中的泛化能力。
使用案例和限制
该数据集旨在用于训练启动子预测模型和理解基因表达调控。限制包括对原核生物启动子的特定关注以及使用马尔可夫链的序列生成方法。
如何使用
您可以使用Hugging Face的datasets库加载数据集:
python from datasets import load_dataset dataset = load_dataset("neuralbioinfo/bacterial_promoters")
联系信息
如有任何问题、反馈或贡献,欢迎联系:
- 姓名:Balázs Ligeti
- 电子邮件:obalasz@gmail.com
我们欢迎您的输入和合作,以改进我们的资源和研究。
引用
bibtex @Article{ProkBERT2024, author = {Ligeti, Balázs et al.}, journal = {Frontiers in Microbiology}, title = {{ProkBERT} family: genomic language models}, year = {2024}, volume = {14}, URL = {https://www.frontiersin.org/articles/10.3389/fmicb.2023.1331233}, DOI = {10.3389/fmicb.2023.1331233} }



