LAB-Bench
收藏arXiv2025-09-30 收录
下载链接:
https://huggingface.co/datasets/futurehouse/lab-bench
下载链接
链接失效反馈资源简介:
该数据集是一个涵盖范围广泛的2400多道多项选择题,旨在评估人工智能系统在实践生物学研究能力方面的表现,包括对文献的回忆和推理、对图表的解释、数据库的访问与导航,以及对DNA和蛋白质序列的理解与操作。此外,该数据集还包括了诸如LitQA2、FigQA、TableQA、SuppQA、DbQA、SeqQA、ProtocolQA以及克隆场景等多种组成部分,每个部分都针对语言模型在生物学背景下的不同能力进行评估。规模上,该数据集包含了超过2400个问题,任务则是评估人工智能系统在实践生物学研究任务上的表现。



