live_protein_bench
收藏LiveProteinBench(含答案标签的已处理版本)数据集概述
数据集基本信息
- 数据集名称:LiveProteinBench (Processed with Answer Labels)
- 数据集地址:https://huggingface.co/datasets/Hauser7733/live_protein_bench
- 许可证:mit
- 语言:英语 (en)
- 数据规模:1,797 个样本
- 下载大小:430,411 字节
- 数据集大小:1,267,780 字节
- 任务类别:多项选择、问答
- 标签:蛋白质、生物学、基准测试、大语言模型评估
数据集内容与结构
数据特征
数据集包含以下字段:
protein_id:UniProt 登录号(字符串类型)。sequence:蛋白质氨基酸序列(字符串类型)。choice_A、choice_B、choice_C、choice_D:四个多项选择选项(字符串类型)。answer:正确答案标签(字符串类型,取值为A、B、C或D)。task:任务标识符(字符串类型)。question_text:问题文本(字符串类型,仅在 GO 任务中非空)。
任务构成
数据集包含 12 个多项选择问答任务,总计 1,797 个样本。具体任务如下:
| 任务名称 | 样本数量 | 描述 |
|---|---|---|
cofactor |
186 | 预测所需辅因子 |
EC_number |
200 | 预测酶学委员会编号 |
active_site |
146 | 预测活性位点残基 |
catalytic_activity |
200 | 预测催化反应 |
motif_position |
52 | 预测保守基序位置 |
pathway |
200 | 预测代谢/信号通路 |
ph |
54 | 预测最适 pH |
temperature |
41 | 预测热适应类别 |
transmembrane |
134 | 预测跨膜区位置 |
GO_molecular_function |
195 | GO 分子功能预测 |
GO_cellular_component |
196 | GO 细胞组分预测 |
GO_biological_process |
193 | GO 生物过程预测 |
数据集来源与处理
数据来源
本数据集是 Rongdingyi/LiveProteinBench 的一个已处理镜像。上游原始 QA 文件仅包含问题、蛋白质序列和四个选项,不包含真实答案标签。
答案标签解析
通过运行构建脚本 scripts/build_live_protein_bench.py,将上游的 QA JSON 文件与对应的 origin_data/*.csv 地面真值文件进行匹配,为每个样本解析出正确的 A/B/C/D 答案标签。匹配策略因任务而异,包括精确字符串匹配、集合成员测试、子字符串包含、正则表达式提取与数值比较等。
数据验证
- 匹配率:1,797/1,797 个样本(100%)均成功解析出单一答案标签。
- 准确性验证:通过 SiEval 的性能对齐流程进行了端到端验证。使用与上游论文相同的大语言模型进行测试,各子任务的准确率分布与论文报告的数据匹配(相对误差 < 5%),统计上强有力地证明了本数据集的答案标签与上游论文作者的意图一致。
未包含内容说明
上游 dataset/QA/ 目录中另有三个任务文件(Ki.json、EC50.json、Kd.json)未包含在本数据集中,原因如下:
- 它们未列在上游官方的任务注册表
prompt.json中。 - 它们需要额外的输入模态(分子 SMILES 字符串)。
- 上游论文本身仅报告了 12 个任务,与本数据集一致。
此外,上游
prompt.json中定义的第 13 个任务motif,其对应的motif.jsonQA 文件在上游仓库中不存在,此为本数据集上游的缺陷。
使用方式
通过 datasets 库加载
python from datasets import load_dataset ds = load_dataset("Hauser7733/live_protein_bench", split="test")
按任务筛选
active_site = ds.filter(lambda x: x["task"] == "active_site")
通过 SiEval 的 Dataset 包装器加载
python from sieval.datasets import LiveProteinBenchDataset ds = LiveProteinBenchDataset(task="active_site")
相关资源
- 上游仓库:Rongdingyi/LiveProteinBench
- 评估系统:SiEval
- 论文:LiveProteinBench: A Contamination-Free Benchmark for LLM Protein Understanding
引用
bibtex @article{liveproteinbench2025, title={LiveProteinBench: A Contamination-Free Benchmark for Large Language Models on Protein Understanding}, author={Rong, Dingyi and others}, journal={arXiv preprint arXiv:2512.22257}, year={2025} }




