cross-species-single-nucleotide-annotation
收藏Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/kuleshov-group/cross-species-single-nucleotide-annotation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含五个任务,用于在植物中以单核苷酸分辨率进行跨物种建模植物基因组。这些任务包括:1. 翻译起始位点(TIS)预测,2. 翻译终止位点(TTS)预测,3. 剪接供体位点预测,4. 剪接受体位点预测,5. 进化保守预测。训练和验证数据集来自拟南芥和谷子,测试数据集来自水稻、高粱和玉米。数据集大小详细列出了每个任务的正负样本数量。
提供机构:
Kuleshov Group
创建时间:
2024-07-25
原始信息汇总
数据集概述
该数据集包含五个任务,用于在植物中以单核苷酸分辨率进行跨物种建模植物基因组。这些任务包括:
- 翻译起始位点(TIS)预测
- 翻译终止位点(TTS)预测
- 剪接供体位点预测
- 剪接受体位点预测
- 进化保守性预测
任务1-4:位点预测
- 训练数据集:从拟南芥染色体1-4生成
- 验证数据集:从拟南芥染色体5生成
- 测试数据集:从水稻、高粱和玉米编译
任务5:进化保守性预测
- 训练数据集:从高粱染色体1-9生成
- 验证数据集:从高粱染色体10生成
- 测试数据集:在玉米中编译
这些数据集有助于实现跨物种的核苷酸注释。
数据集大小
TIS、TTS、供体、受体
| TIS | TTS | 供体 | 受体 | |||||
|---|---|---|---|---|---|---|---|---|
| 正样本数 | 负样本数 | 正样本数 | 负样本数 | 正样本数 | 负样本数 | 正样本数 | 负样本数 | |
| 拟南芥染色体1-4训练 | 24,711 | 173,880 | 25,112 | 220,452 | 96,752 | 483,268 | 97,224 | 536,179 |
| 拟南芥染色体5验证 | 7,311 | 50,514 | 7,461 | 64,365 | 29,377 | 140,536 | 29,567 | 155,397 |
| 水稻测试 | 2,974 | 1,400,115 | 2,974 | 3,718,029 | 21,963 | 3,764,549 | 21,963 | 4,151,774 |
| 高粱测试 | 3,214 | 3,937,719 | 3,214 | 10,445,530 | 24,801 | 10,821,941 | 24,801 | 12,640,573 |
| 玉米测试 | 3,098 | 11,265,574 | 3,098 | 29,535,973 | 24,399 | 34,516,038 | 24,399 | 40,025,899 |
进化保守性
| 正样本数 | 负样本数 | |
|---|---|---|
| 训练 | 429,043 | 429,043 |
| 验证 | 19,030 | 19,030 |
| 测试 | 947,769 | 976,230 |
搜集汇总
数据集介绍

构建方式
该数据集的构建基于植物基因组学的研究需求,旨在通过单核苷酸分辨率进行跨物种建模。数据集包含五个任务,分别针对翻译起始位点、翻译终止位点、剪接供体位点、剪接受体位点以及进化保守性预测。训练数据主要来源于拟南芥(Arabidopsis)的染色体1-4,验证数据来自拟南芥染色体5,测试数据则分别从水稻、高粱和玉米中提取。进化保守性预测任务的训练数据来自高粱染色体1-9,验证数据来自高粱染色体10,测试数据则基于玉米。
特点
该数据集的特点在于其跨物种的广泛适用性和高分辨率注释能力。每个任务的数据集均包含正负样本,确保了模型的平衡训练与评估。例如,翻译起始位点预测任务中,拟南芥训练集包含24,711个正样本和173,880个负样本,而水稻测试集则包含2,974个正样本和1,400,115个负样本。进化保守性预测任务的数据集规模更大,训练集包含429,043个正负样本,测试集则达到947,769个正样本和976,230个负样本。这种设计使得数据集能够有效支持跨物种基因组注释的深入研究。
使用方法
使用该数据集时,可通过Hugging Face的`datasets`库加载数据。以翻译起始位点预测任务为例,用户可以通过指定数据文件路径加载训练、验证和测试数据。加载后的数据可转换为Pandas DataFrame格式,便于进一步分析与建模。例如,使用`load_dataset`函数加载数据后,可通过`to_pandas`方法将数据转换为DataFrame,从而进行数据预处理和模型训练。这种灵活的使用方式使得研究人员能够快速上手并进行高效的基因组注释研究。
背景与挑战
背景概述
cross-species-single-nucleotide-annotation数据集由Kuleshov Group于近年发布,旨在通过单核苷酸分辨率建模植物基因组,推动跨物种基因组注释研究。该数据集包含五个核心任务:翻译起始位点(TIS)预测、翻译终止位点(TTS)预测、剪接供体位点预测、剪接受体位点预测以及进化保守性预测。训练数据主要来源于拟南芥(Arabidopsis)和高粱(Sorghum)的染色体,测试数据则涵盖了水稻、高粱和玉米等多个物种。这一数据集为植物基因组学领域提供了跨物种分析的重要工具,推动了基因组功能注释和进化研究的深入发展。
当前挑战
该数据集在解决跨物种单核苷酸注释问题时面临多重挑战。首先,不同物种的基因组结构和功能位点存在显著差异,如何构建适用于多物种的通用模型是一个关键难题。其次,数据集的构建过程中需要处理大规模基因组数据,确保正负样本的平衡性和数据质量,这对数据预处理和标注提出了极高要求。此外,进化保守性预测任务需要整合多物种的进化信息,增加了数据整合和模型训练的复杂性。这些挑战不仅考验了数据集的构建技术,也对后续的机器学习模型提出了更高的泛化能力和鲁棒性要求。
常用场景
经典使用场景
该数据集在植物基因组学研究中具有重要应用,特别是在跨物种单核苷酸分辨率建模方面。研究人员可以利用该数据集进行翻译起始位点(TIS)、翻译终止位点(TTS)、剪接供体位点和剪接受体位点的预测,以及进化保守性分析。这些任务为理解不同植物物种间的基因表达调控机制提供了关键数据支持。
解决学术问题
该数据集解决了植物基因组注释中的多个关键问题,特别是在跨物种基因组比较和功能位点预测方面。通过提供高质量的训练和测试数据,研究人员能够开发更精确的机器学习模型,用于预测基因功能位点和进化保守性。这不仅推动了植物基因组学的发展,还为作物改良和基因功能研究提供了重要工具。
衍生相关工作
该数据集衍生了许多经典研究工作,特别是在植物基因组注释和跨物种比较领域。基于该数据集,研究人员开发了多种机器学习模型和算法,用于提高基因功能位点预测的准确性。此外,该数据集还被用于开发新的生物信息学工具,支持植物基因组的大规模注释和功能分析。
以上内容由遇见数据集搜集并总结生成



