tsynbio/ProteinLMBench

Hugging Face2024-05-23 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/tsynbio/ProteinLMBench

下载链接

链接失效反馈

资源简介：

ProteinLMBench是一个用于蛋白质相关任务的大语言模型（LLM）基准测试数据集。该数据集包含多个与蛋白质相关的子集，如UniProt_Function、UniProt_Induction等，以及一个评估配置文件。

ProteinLMBench is a benchmark dataset for large language models (LLMs) focused on protein-related tasks. This dataset comprises several protein-related subsets, including UniProt_Function, UniProt_Induction, and others, alongside an evaluation configuration file.

提供机构：

tsynbio

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 问答
语言: 英语
标签: 生物学, 医学, 化学
数据规模: 小于1K

配置详情

UniProt_Function
- 数据文件:
  - 分割: 训练
  - 路径: sft/sft_uniprot_Function.json
UniProt_Induction
- 数据文件:
  - 分割: 训练
  - 路径: sft/sft_uniprot_Induction.json
UniProt_Involvement in disease
- 数据文件:
  - 分割: 训练
  - 路径: sft/sft_uniprot_Involvement in disease.json
UniProt_Post-translational modification
- 数据文件:
  - 分割: 训练
  - 路径: sft/sft_uniprot_Post-translational modification.json
UniProt_Subunit structure
- 数据文件:
  - 分割: 训练
  - 路径: sft/sft_uniprot_Subunit structure.json
UniProt_Tissue specificity
- 数据文件:
  - 分割: 训练
  - 路径: sft/sft_uniprot_Tissue specificity.json
Enzyme_CoT
- 数据文件:
  - 分割: 训练
  - 路径: sft/enzyme_CoT.json
evaluation
- 数据文件:
  - 分割: 训练
  - 路径: ProteinLMBench.json

AI搜集汇总

数据集介绍

构建方式

在生物医学领域，ProteinLMBench数据集的构建旨在为大语言模型（LLMs）提供一个全面的蛋白质相关任务基准。该数据集通过整合来自UniProt数据库的多种蛋白质特性数据，包括功能、诱导性、疾病关联、翻译后修饰、亚基结构和组织特异性等，形成了一系列详细的训练数据文件。此外，数据集还包含了酶的上下文线索（CoT）数据，以增强模型在复杂生物化学任务中的表现。

特点

ProteinLMBench数据集的显著特点在于其多维度的数据覆盖和高质量的生物医学信息。通过提供多种蛋白质特性的详细描述，该数据集不仅支持功能性预测，还能用于疾病关联分析和翻译后修饰的研究。此外，数据集的组织特异性和亚基结构信息为蛋白质的复杂生物学功能提供了深入的见解，使其在生物医学研究中具有广泛的应用潜力。

使用方法

ProteinLMBench数据集适用于多种生物医学任务，特别是那些涉及蛋白质功能预测和疾病关联分析的研究。研究人员可以通过加载数据集中的不同配置文件，如UniProt_Function、UniProt_Induction等，来训练和评估模型在特定蛋白质特性上的表现。此外，数据集中的酶上下文线索（CoT）数据可用于提升模型在复杂生物化学任务中的准确性和鲁棒性。

背景与挑战

背景概述

在生物医学领域，蛋白质相关任务的研究一直是核心课题之一。ProteinLMBench数据集由tsynbio团队创建，旨在为大型语言模型（LLMs）在蛋白质相关任务中的应用提供一个基准。该数据集涵盖了多个与蛋白质相关的子任务，如蛋白质功能、诱导、疾病关联、翻译后修饰、亚基结构和组织特异性等。通过整合这些数据，ProteinLMBench不仅为研究人员提供了一个全面的资源，还推动了生物信息学和医学领域的发展，特别是在蛋白质结构与功能预测方面。

当前挑战

ProteinLMBench数据集在构建过程中面临多项挑战。首先，蛋白质相关数据的复杂性和多样性使得数据收集和标注工作异常繁琐。其次，不同子任务之间的数据分布差异较大，如何确保数据集的平衡性和代表性是一个重要问题。此外，蛋白质领域的专业知识要求较高，数据集的构建需要跨学科的合作与支持。最后，随着生物医学研究的快速发展，数据集的更新和扩展也是一个持续的挑战，以确保其与最新的科学发现保持同步。

常用场景

经典使用场景

在生物信息学领域，ProteinLMBench数据集被广泛用于训练和评估大型语言模型（LLMs）在蛋白质相关任务中的表现。该数据集涵盖了从蛋白质功能、诱导性、疾病关联、翻译后修饰、亚基结构到组织特异性等多个方面，为研究人员提供了一个全面的蛋白质知识库。通过这些数据，研究人员可以开发和优化模型，以更准确地预测和解释蛋白质的生物学特性。

衍生相关工作

基于ProteinLMBench数据集，研究人员开发了多种蛋白质分析工具和模型，如蛋白质功能预测模型、疾病关联分析工具和翻译后修饰预测系统。这些工具和模型不仅在学术界得到了广泛应用，还被集成到多个生物信息学平台中，如UniProt和Ensembl。此外，该数据集还激发了一系列关于蛋白质结构和功能预测的深入研究，推动了生物信息学领域的发展。

数据集最近研究