monsoon-nlp/greenbeing-proteins

Hugging Face2024-05-20 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/monsoon-nlp/greenbeing-proteins

下载链接

链接失效反馈

资源简介：

GreenBeing蛋白质数据集包含来自UniProtKB的蛋白质序列，涵盖了多种农作物及其相关物种。数据集分为四个配置：pretraining、finetuning、evaluation和research。pretraining分割包含未审查的蛋白质序列，finetuning和evaluation分割包含已审查的蛋白质序列，research分割则包含来自藜麦等作物的蛋白质序列。每个分割都提供了物种名称、氨基酸序列以及可能的注释信息。

提供机构：

monsoon-nlp

原始信息汇总

GreenBeing Proteins dataset 概述

数据集描述

名称: GreenBeing
主题: 蛋白质、生物学、植物学
来源: 来自UniProtKB知识库，涉及特定食品作物及相关物种的蛋白质。
序列表示: 使用IUPAC-IUB代码表示氨基酸序列，其中字母A-Z映射到氨基酸。

数据集配置

配置名称: pretraining, finetuning, evaluation, research
数据文件:
- pretraining: 包含未审查蛋白质（TrEMBL）的氨基酸序列，文件路径为"proteins_pretraining.csv"。
- finetuning: 包含审查过的蛋白质（Swiss-Prot），文件路径为"proteins_finetuning.csv"。
- evaluation: 包含来自其他属的审查过的蛋白质（Swiss-Prot），文件路径为"proteins_evaluation.csv"。
- research: 主要包含藜麦的蛋白质，文件路径为"proteins_research.csv"。

数据集内容

pretraining split:
- 主要包含未审查蛋白质，每行包含物种或亚种名称及蛋白质的氨基酸序列。
- 物种分布:
  - 31% Papilionoideae/Faboideae
  - 19% Triticeae
  - 17% Oryzeae
  - 12% Paniceae
  - 6% Solanum
  - 5% Zea
  - 2% Sorghum
  - 2% Lactuca sativa
  - 2% Capsicum
  - 2% Cucurbita
  - 0.8% Spinacia
  - 0.7% Asparagus
  - 0.2% Beta vulgaris
  - 0.1% Bambusa
finetuning split:
- 包含审查过的蛋白质，每行包含基因名、物种或亚种、氨基酸序列及UniProt中的注释。
- 注释可能包括功能描述、细胞内位置、植物中的表达位置等。
- 物种分布:
  - 约50%来自稻米及相关物种
  - 约20%来自Papilionoideae/Faboideae
  - 其他七个物种各少于1%
evaluation split:
- 包含来自其他属的审查过的蛋白质，如鳄梨、胡萝卜、木薯、荔枝、李属等。
- 每行包含基因名、物种或亚种、氨基酸序列及UniProt中的注释。
research split:
- 主要包含藜麦的蛋白质，以及少量cañihua和苋属谷物物种的蛋白质。
- 每行包含UniProt/TrEMBL基因名、物种及氨基酸序列。

使用限制与安全注意事项

数据集中的蛋白质和审查状态截至2024年3月29日。
应至少在稻米之外的物种上进行预训练，因为其审查过的蛋白质可能是最常见和重要的。
审查和未审查的蛋白质在相关物种和访问号中通常相似，不适合用于预测/填充/完成测试。
包含不可食用野生近缘种。
某些人对小麦/麸质、茄科、玉米、荔枝等作物有过敏反应。
辣椒可能非常辣。

AI搜集汇总

数据集介绍

构建方式

GreenBeing Proteins数据集的构建基于UniProtKB知识库，精选了来自多种粮食作物及其相关物种的蛋白质数据。数据集通过将蛋白质氨基酸序列按照IUPAC-IUB编码进行表示，并根据不同的研究需求划分为预训练、微调、评估和研究四个子集。预训练集包含未审核的蛋白质（TrEMBL），每个条目包含物种或亚种名称及蛋白质序列，大型蛋白质序列每8000个字母分割为新行。微调集则包含已审核的蛋白质（Swiss-Prot），并附有基因名称、物种信息及UniProt中的注释。评估集和研究集分别包含来自其他属的已审核蛋白质和特定谷物物种的蛋白质数据。

特点

GreenBeing Proteins数据集的显著特点在于其多样性和精细的分类。数据集涵盖了多种重要粮食作物的蛋白质信息，包括大豆、小麦、水稻、玉米等，且每个子集针对不同的研究阶段进行了优化。预训练集提供了大量未审核的蛋白质序列，适合用于大规模模型预训练；微调集则提供了详细的注释信息，适合用于模型微调和功能预测。此外，数据集还特别注意了蛋白质序列的分割和注释的完整性，确保了数据的高质量和实用性。

使用方法

使用GreenBeing Proteins数据集时，用户可以根据研究需求选择不同的配置和分割。例如，使用`load_dataset`函数加载预训练集时，可以指定`pretraining`配置和`pretraining`分割。数据集的每个子集都有特定的用途，预训练集适合用于模型的大规模预训练，微调集适合用于模型的精细调整，评估集用于模型性能的验证，而研究集则适合进行特定物种的深入研究。通过合理选择和配置，用户可以充分利用该数据集进行蛋白质相关的生物信息学研究。

背景与挑战

背景概述

GreenBeing Proteins数据集由Monsoon NLP团队创建，专注于从UniProtKB知识库中提取的食品作物及其相关物种的蛋白质数据。该数据集的核心研究问题在于探索和分析不同植物物种的蛋白质序列及其功能，旨在为植物基因组学和生物信息学领域提供丰富的资源。数据集的构建基于2024年3月的UniProt数据，涵盖了多种作物如大豆、小麦、水稻等，以及它们的野生近缘种。通过提供预训练、微调、评估和研究四个不同的数据集配置，GreenBeing Proteins为研究人员提供了多样化的工具，以支持蛋白质序列的分析和模型训练。

当前挑战

GreenBeing Proteins数据集面临的挑战主要集中在数据质量和多样性上。首先，数据集中的蛋白质序列来自不同审查状态的UniProt条目，包括未审查的TrEMBL和已审查的Swiss-Prot，这可能导致数据质量的不一致。其次，尽管数据集涵盖了多种作物，但某些物种如水稻的蛋白质数据占据了较大比例，可能导致模型训练时的偏差。此外，数据集中的蛋白质序列长度限制和分割方式也可能影响模型的性能。最后，数据集中包含的某些物种可能引发过敏反应，因此在应用时需特别注意安全性问题。

常用场景

经典使用场景

GreenBeing Proteins数据集在植物蛋白质研究领域具有广泛的应用场景，尤其是在蛋白质序列的预训练和微调任务中。该数据集包含了来自多种重要农作物及其相关物种的蛋白质序列，如大豆、小麦、水稻等，为研究人员提供了丰富的生物信息资源。通过使用该数据集，研究者可以构建和优化蛋白质序列模型，从而提高对植物蛋白质功能的预测和理解。

实际应用

在实际应用中，GreenBeing Proteins数据集被广泛用于农业和生物技术领域。例如，通过分析数据集中的蛋白质序列，研究人员可以开发新的作物品种，增强其抗病性和适应性。此外，该数据集还可用于优化植物蛋白质的生产工艺，提高食品和饲料的质量。在药物研发领域，数据集中的蛋白质信息也有助于发现新的药物靶点，推动植物源药物的开发。

衍生相关工作

GreenBeing Proteins数据集的发布催生了一系列相关研究工作，特别是在植物蛋白质功能预测和蛋白质组学分析方面。许多研究者利用该数据集进行深度学习模型的训练和验证，开发出高效的蛋白质序列分析工具。此外，该数据集还激发了对植物蛋白质多样性和进化关系的深入研究，推动了跨学科的合作，如生物信息学、计算机科学和植物生物学的交叉研究。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集