five

tsynbio/ProteinLMBench|蛋白质研究数据集|问答任务数据集

收藏
hugging_face2024-05-23 更新2024-06-15 收录
蛋白质研究
问答任务
下载链接:
https://hf-mirror.com/datasets/tsynbio/ProteinLMBench
下载链接
链接失效反馈
资源简介:
ProteinLMBench是一个用于蛋白质相关任务的大语言模型(LLM)基准测试数据集。该数据集包含多个与蛋白质相关的子集,如UniProt_Function、UniProt_Induction等,以及一个评估配置文件。
提供机构:
tsynbio
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 问答
  • 语言: 英语
  • 标签: 生物学, 医学, 化学
  • 数据规模: 小于1K

配置详情

  • UniProt_Function
    • 数据文件:
      • 分割: 训练
      • 路径: sft/sft_uniprot_Function.json
  • UniProt_Induction
    • 数据文件:
      • 分割: 训练
      • 路径: sft/sft_uniprot_Induction.json
  • UniProt_Involvement in disease
    • 数据文件:
      • 分割: 训练
      • 路径: sft/sft_uniprot_Involvement in disease.json
  • UniProt_Post-translational modification
    • 数据文件:
      • 分割: 训练
      • 路径: sft/sft_uniprot_Post-translational modification.json
  • UniProt_Subunit structure
    • 数据文件:
      • 分割: 训练
      • 路径: sft/sft_uniprot_Subunit structure.json
  • UniProt_Tissue specificity
    • 数据文件:
      • 分割: 训练
      • 路径: sft/sft_uniprot_Tissue specificity.json
  • Enzyme_CoT
    • 数据文件:
      • 分割: 训练
      • 路径: sft/enzyme_CoT.json
  • evaluation
    • 数据文件:
      • 分割: 训练
      • 路径: ProteinLMBench.json
AI搜集汇总
数据集介绍
main_image_url
构建方式
在生物医学领域,ProteinLMBench数据集的构建旨在为大语言模型(LLMs)提供一个全面的蛋白质相关任务基准。该数据集通过整合来自UniProt数据库的多种蛋白质特性数据,包括功能、诱导性、疾病关联、翻译后修饰、亚基结构和组织特异性等,形成了一系列详细的训练数据文件。此外,数据集还包含了酶的上下文线索(CoT)数据,以增强模型在复杂生物化学任务中的表现。
特点
ProteinLMBench数据集的显著特点在于其多维度的数据覆盖和高质量的生物医学信息。通过提供多种蛋白质特性的详细描述,该数据集不仅支持功能性预测,还能用于疾病关联分析和翻译后修饰的研究。此外,数据集的组织特异性和亚基结构信息为蛋白质的复杂生物学功能提供了深入的见解,使其在生物医学研究中具有广泛的应用潜力。
使用方法
ProteinLMBench数据集适用于多种生物医学任务,特别是那些涉及蛋白质功能预测和疾病关联分析的研究。研究人员可以通过加载数据集中的不同配置文件,如UniProt_Function、UniProt_Induction等,来训练和评估模型在特定蛋白质特性上的表现。此外,数据集中的酶上下文线索(CoT)数据可用于提升模型在复杂生物化学任务中的准确性和鲁棒性。
背景与挑战
背景概述
在生物医学领域,蛋白质相关任务的研究一直是核心课题之一。ProteinLMBench数据集由tsynbio团队创建,旨在为大型语言模型(LLMs)在蛋白质相关任务中的应用提供一个基准。该数据集涵盖了多个与蛋白质相关的子任务,如蛋白质功能、诱导、疾病关联、翻译后修饰、亚基结构和组织特异性等。通过整合这些数据,ProteinLMBench不仅为研究人员提供了一个全面的资源,还推动了生物信息学和医学领域的发展,特别是在蛋白质结构与功能预测方面。
当前挑战
ProteinLMBench数据集在构建过程中面临多项挑战。首先,蛋白质相关数据的复杂性和多样性使得数据收集和标注工作异常繁琐。其次,不同子任务之间的数据分布差异较大,如何确保数据集的平衡性和代表性是一个重要问题。此外,蛋白质领域的专业知识要求较高,数据集的构建需要跨学科的合作与支持。最后,随着生物医学研究的快速发展,数据集的更新和扩展也是一个持续的挑战,以确保其与最新的科学发现保持同步。
常用场景
经典使用场景
在生物信息学领域,ProteinLMBench数据集被广泛用于训练和评估大型语言模型(LLMs)在蛋白质相关任务中的表现。该数据集涵盖了从蛋白质功能、诱导性、疾病关联、翻译后修饰、亚基结构到组织特异性等多个方面,为研究人员提供了一个全面的蛋白质知识库。通过这些数据,研究人员可以开发和优化模型,以更准确地预测和解释蛋白质的生物学特性。
衍生相关工作
基于ProteinLMBench数据集,研究人员开发了多种蛋白质分析工具和模型,如蛋白质功能预测模型、疾病关联分析工具和翻译后修饰预测系统。这些工具和模型不仅在学术界得到了广泛应用,还被集成到多个生物信息学平台中,如UniProt和Ensembl。此外,该数据集还激发了一系列关于蛋白质结构和功能预测的深入研究,推动了生物信息学领域的发展。
数据集最近研究
最新研究方向
在生物信息学领域,ProteinLMBench数据集的最新研究方向主要集中在利用大型语言模型(LLMs)进行蛋白质相关任务的性能评估和优化。该数据集通过整合多个蛋白质数据库的信息,如UniProt的功能、诱导、疾病关联、翻译后修饰、亚单位结构和组织特异性等,为研究人员提供了一个全面的基准平台。当前的研究热点包括通过深度学习技术提升蛋白质功能预测的准确性,以及探索蛋白质与其他生物分子之间的相互作用机制。这些研究不仅有助于加速新药研发和生物工程应用,还对理解生命科学的基础原理具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录