five

live_protein_bench

收藏
Hugging Face2026-04-08 更新2026-04-09 收录
下载链接:
https://huggingface.co/datasets/Hauser7733/live_protein_bench
下载链接
链接失效反馈
官方服务:
资源简介:
LiveProteinBench(带答案标签处理版)是一个用于评估大型语言模型(LLM)在蛋白质特性与功能预测方面能力的多选问答数据集。该数据集包含12个任务,涵盖蛋白质功能注释、结构/位置和理化特性,共计1,797个样本。每个样本包含蛋白质ID、氨基酸序列、四个多选选项、正确答案标签、任务标识符和问题文本(仅GO任务有)。数据集通过特定任务匹配器从上游原始数据中解析出答案标签,并经过端到端验证,确保标签准确性。数据集适用于蛋白质理解、生物信息学和LLM评估等任务。
创建时间:
2026-03-30
原始信息汇总

LiveProteinBench(含答案标签的已处理版本)数据集概述

数据集基本信息

  • 数据集名称:LiveProteinBench (Processed with Answer Labels)
  • 数据集地址:https://huggingface.co/datasets/Hauser7733/live_protein_bench
  • 许可证:mit
  • 语言:英语 (en)
  • 数据规模:1,797 个样本
  • 下载大小:430,411 字节
  • 数据集大小:1,267,780 字节
  • 任务类别:多项选择、问答
  • 标签:蛋白质、生物学、基准测试、大语言模型评估

数据集内容与结构

数据特征

数据集包含以下字段:

  • protein_id:UniProt 登录号(字符串类型)。
  • sequence:蛋白质氨基酸序列(字符串类型)。
  • choice_Achoice_Bchoice_Cchoice_D:四个多项选择选项(字符串类型)。
  • answer:正确答案标签(字符串类型,取值为 ABCD)。
  • task:任务标识符(字符串类型)。
  • question_text:问题文本(字符串类型,仅在 GO 任务中非空)。

任务构成

数据集包含 12 个多项选择问答任务,总计 1,797 个样本。具体任务如下:

任务名称 样本数量 描述
cofactor 186 预测所需辅因子
EC_number 200 预测酶学委员会编号
active_site 146 预测活性位点残基
catalytic_activity 200 预测催化反应
motif_position 52 预测保守基序位置
pathway 200 预测代谢/信号通路
ph 54 预测最适 pH
temperature 41 预测热适应类别
transmembrane 134 预测跨膜区位置
GO_molecular_function 195 GO 分子功能预测
GO_cellular_component 196 GO 细胞组分预测
GO_biological_process 193 GO 生物过程预测

数据集来源与处理

数据来源

本数据集是 Rongdingyi/LiveProteinBench 的一个已处理镜像。上游原始 QA 文件仅包含问题、蛋白质序列和四个选项,不包含真实答案标签。

答案标签解析

通过运行构建脚本 scripts/build_live_protein_bench.py,将上游的 QA JSON 文件与对应的 origin_data/*.csv 地面真值文件进行匹配,为每个样本解析出正确的 A/B/C/D 答案标签。匹配策略因任务而异,包括精确字符串匹配、集合成员测试、子字符串包含、正则表达式提取与数值比较等。

数据验证

  • 匹配率:1,797/1,797 个样本(100%)均成功解析出单一答案标签。
  • 准确性验证:通过 SiEval 的性能对齐流程进行了端到端验证。使用与上游论文相同的大语言模型进行测试,各子任务的准确率分布与论文报告的数据匹配(相对误差 < 5%),统计上强有力地证明了本数据集的答案标签与上游论文作者的意图一致。

未包含内容说明

上游 dataset/QA/ 目录中另有三个任务文件(Ki.jsonEC50.jsonKd.json未包含在本数据集中,原因如下:

  1. 它们未列在上游官方的任务注册表 prompt.json 中。
  2. 它们需要额外的输入模态(分子 SMILES 字符串)。
  3. 上游论文本身仅报告了 12 个任务,与本数据集一致。 此外,上游 prompt.json 中定义的第 13 个任务 motif,其对应的 motif.json QA 文件在上游仓库中不存在,此为本数据集上游的缺陷。

使用方式

通过 datasets 库加载

python from datasets import load_dataset ds = load_dataset("Hauser7733/live_protein_bench", split="test")

按任务筛选

active_site = ds.filter(lambda x: x["task"] == "active_site")

通过 SiEval 的 Dataset 包装器加载

python from sieval.datasets import LiveProteinBenchDataset ds = LiveProteinBenchDataset(task="active_site")

相关资源

引用

bibtex @article{liveproteinbench2025, title={LiveProteinBench: A Contamination-Free Benchmark for Large Language Models on Protein Understanding}, author={Rong, Dingyi and others}, journal={arXiv preprint arXiv:2512.22257}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
LiveProteinBench数据集的构建过程体现了对生物信息学领域严谨性的追求。该数据集源自上游原始数据,通过精心设计的任务特定匹配器将UniProt格式的注释转化为多项选择题的答案标签。构建脚本从上游的QA JSON文件和对应的CSV文件中提取信息,针对十二项不同任务采用差异化的匹配策略,例如通过正则表达式提取活性位点信息或进行双向子字符串匹配。这一过程确保了1797个样本全部成功解析,实现了百分之百的匹配率,并通过了端到端的统计验证,保证了标签与原始研究意图的一致性。
特点
该数据集在蛋白质理解评估领域展现出鲜明的特色。其核心在于涵盖了蛋白质功能注释、结构定位以及理化性质三大类别的十二项独立任务,总计提供1797个高质量样本。每个样本均包含蛋白质序列、四项选择题选项及经过验证的正确答案,构成了一个无污染、任务导向的评估基准。数据集特别排除了需要额外分子输入模态的任务,专注于基于序列的蛋白质理解,这种设计使其能够精准评估大型语言模型在蛋白质科学领域的推理能力,并与上游研究的评估框架保持严格对齐。
使用方法
在具体应用层面,该数据集为研究者提供了便捷的接入途径。用户可通过Hugging Face的`datasets`库直接加载整个测试集,并利用过滤功能按任务标识符提取特定子集进行评估。此外,数据集与SiEval评估系统深度集成,支持通过其专用包装类进行调用,这简化了模型性能验证的流程。数据集主要用于评估大型语言模型在多项选择题形式下的蛋白质属性预测能力,研究者可据此计算模型在不同蛋白质理解任务上的准确率,从而系统性地衡量模型的生物知识掌握程度与推理水平。
背景与挑战
背景概述
LiveProteinBench 数据集于2025年由研究人员提出,旨在为大型语言模型在蛋白质理解领域提供一个无污染的标准化评估基准。该数据集聚焦于蛋白质功能注释、结构定位及理化性质预测等核心研究问题,涵盖了酶活性位点识别、代谢通路推断、基因本体论分类等十二项关键任务。通过整合来自 UniProt 数据库的蛋白质序列与注释信息,该数据集为生物信息学与计算生物学领域提供了重要的评估工具,推动了蛋白质功能预测模型的发展与验证。
当前挑战
LiveProteinBench 数据集旨在解决蛋白质功能预测与属性推断中的多项挑战,包括对蛋白质序列进行多任务、多选择的精确问答,这要求模型具备深层次的生物化学知识理解与推理能力。在构建过程中,数据集面临的主要挑战在于原始数据中缺乏明确的答案标注,需通过设计复杂的任务特定匹配器,从非结构化的 UniProt 注释中准确解析出标准答案,并确保标注与上游研究意图一致,同时需排除额外模态数据以保持评估的纯粹性与一致性。
常用场景
经典使用场景
在蛋白质信息学领域,LiveProteinBench数据集作为一项无污染的基准测试工具,其经典使用场景在于系统评估大型语言模型对蛋白质性质与功能的理解能力。该数据集通过涵盖酶活性位点预测、辅因子识别、跨膜区域定位等十二项多样化任务,为模型提供了从氨基酸序列推断蛋白质高级特性的标准化测试平台,有效避免了训练数据污染对评估结果的影响。
解决学术问题
该数据集主要解决了蛋白质功能注释研究中缺乏可靠评估基准的学术难题。通过构建覆盖蛋白质理化性质、亚细胞定位及分子功能的多选题任务,它为量化语言模型在生物序列理解方面的泛化能力提供了严谨的度量标准。其意义在于推动了蛋白质语言模型评估方法的标准化,为比较不同模型在生物医学知识推理任务上的性能建立了可复现的实验基础。
衍生相关工作
围绕该数据集衍生的经典工作主要包括蛋白质语言模型评估框架的优化与扩展。例如SiEval系统通过集成该基准实现了对模型蛋白质理解能力的自动化验证;后续研究则借鉴其任务构建范式,开发了针对蛋白质-配体相互作用等细分领域的专项评估基准,形成了蛋白质机器学习评估方法学的系列研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作