BioMysteryBench-preview
收藏Hugging Face2026-04-29 更新2026-05-01 收录
下载链接:
https://huggingface.co/datasets/Anthropic/BioMysteryBench-preview
下载链接
链接失效反馈官方服务:
资源简介:
BioMysteryBench是一个由Anthropic创建的基准测试公开样本,包含5个问题。数据集主要包含两部分:问题描述文件(problems.csv或problems.parquet)和每个问题对应的数据文件(data.zip或data/<id>.zip)。问题描述文件中每行代表一个问题,包含问题标识符(id)、任务提示(question)、评分标准(answer_rubric,含预期答案)、允许访问的网络域(allowed_domains)以及人类是否可解的标记(human_solvable)。数据文件需解压到工作目录中使用。该数据集适用于评估模型在问题解决任务上的性能。完整基准测试需申请访问权限。
BioMysteryBench is a public sample of a benchmark created by Anthropic, containing 5 problems. The dataset mainly consists of two parts: the problem description file (problems.csv or problems.parquet) and the corresponding data files for each problem (data.zip or data/<id>.zip). Each line in the problem description file represents a problem and includes the following fields: problem identifier (id), task prompt (question), grading rubric (answer_rubric, including expected answers), allowed web domains (allowed_domains), and a flag indicating whether the problem is human-solvable (human_solvable). The data files need to be extracted to the working directory for use. This dataset is suitable for evaluating model performance on problem-solving tasks. Full benchmark access requires permission.
提供机构:
Anthropic
创建时间:
2026-04-29
原始信息汇总
BioMysteryBench (公开样本) 数据集详情
基本信息
- 创建者: Anthropic
- 数据集类型: 基准测试(Benchmark)公开样本
- 样本规模: 包含5个问题
数据内容
数据集包含以下文件:
1. problems.csv / problems.parquet
每个问题对应一行数据,包含以下字段:
- id: 问题标识符
- question: 向模型展示的任务提示
- answer_rubric: 评分标准(包含预期答案)
- allowed_domains: 求解环境可以访问的网络域名
- human_solvable: 标记是否至少有一位人类基准测试者解决了该问题(
yes表示可解决,no表示无人解决)
2. data.zip(样本)或 data/<id>.zip(完整集)
每个问题的数据文件,需要在求解前解压到工作目录中。
完整数据集获取
如需访问完整基准测试数据集,请通过以下链接申请权限: https://huggingface.co/datasets/Anthropic/BioMysteryBench-full
搜集汇总
数据集介绍

构建方式
BioMysteryBench-preview是Anthropic构建的BioMysteryBench基准测试的公开样本片段,包含5道从完整基准中精选的生物谜题。其构建方式以问题驱动为核心,每个问题均以标准化格式存储于`problems.csv`或`problems.parquet`文件中,字段涵盖问题标识符、模型提示文本、包含预期答案的评分标准、求解环境允许访问的网络域名,以及人类基准测试者是否成功求解该问题的标签。配套数据文件压缩于`data.zip`中,提取后即可作为解题工作目录,形成完整的问题解决环境。
特点
该数据集精选了5道具有代表性的生物谜题,作为官方预览版本,旨在让研究者快速了解完整基准的构成与风格。每个问题附带明确的评分标准,便于自动化评估模型输出是否符合预期;`allowed_domains`字段界定了模型在解题时可访问的网络资源范围,模拟真实科研环境中的信息检索约束。`human_solvable`标签提供了人类专家解题能力的基准参考,区分了可解与未解难题,为评估模型高级推理能力提供标尺。
使用方法
研究者可下载数据集后,首先解压`data.zip`至工作目录,确保所有辅助文件可用。通过读取`problems.csv`或`problems.parquet`文件遍历各个问题,将`question`字段作为模型输入提示,引导模型生成解答。随后,利用`answer_rubric`字段中的评分标准对模型输出进行自动或人工评判,以确定答案是否符合预期。如需访问全部150道问题的完整基准,可通过HuggingFace页面链接申请权限,进一步开展大规模生物谜题推理能力评估实验。
背景与挑战
背景概述
BioMysteryBench-preview是由Anthropic公司创建的一个生物谜题基准数据集,旨在评估人工智能系统在复杂生物问题求解中的能力。该数据集发布于2024年,作为完整版BioMysteryBench的公开样本,包含5个精心设计的生物领域问题。Anthropic作为人工智能安全研究的领军机构,通过构建这一基准,致力于推动AI在真实世界科学推理与实验设计方面的性能提升。该数据集的核心研究问题在于检验模型是否能够整合多源信息、执行逐步推理并得出可验证的生物结论,对评估前沿AI系统的科学推理能力具有重要意义,为后续更广泛的生物智能基准研究奠定了基础。
当前挑战
BioMysteryBench-preview所解决的领域挑战是生物科学中的复杂推理与实验设计问题,超越传统问答任务,要求模型具备多步骤分析、数据整合和假设检验能力。构建过程中面临的挑战包括:设计具有明确评分标准(answer_rubric)但又能避免歧义的问题,确保问题既具有挑战性又可由人类专家求解(human_solvable字段);提供必要的实验数据文件(data.zip)同时限制模型可访问的网络域(allowed_domains),以模拟封闭环境中的真实科学探究;以及建立公平且可重复的评估流程,防止模型依赖外部知识或记忆模式而非真正推理。
常用场景
经典使用场景
BioMysteryBench-preview作为Anthropic构建的生物学推理基准数据集的公开样本,其核心应用场景在于评估和训练人工智能系统在复杂生物学谜题上的推理能力。该数据集通过精心设计的5个生物学问题,每个问题均附带明确的评分标准与允许的网络访问域,为研究者提供了一个标准化的测试平台。经典使用方式是将问题文本输入至模型,要求其在限定网络资源下自主寻找答案,从而检验模型在生物学知识检索、逻辑推理与信息整合方面的综合表现。这一设计使得BioMysteryBench-preview成为衡量AI系统在专业化科学推理任务中能力的不可或缺的工具。
解决学术问题
该数据集精准聚焦于当前人工智能领域的一个关键学术挑战:如何评估和提升模型在复杂科学问题上的推理深度与可靠性。传统基准测试多侧重于简单问答或常识推理,难以反映模型在真实科研场景中的表现。BioMysteryBench-preview通过引入需要多步推理、跨领域知识整合以及外部资源利用的生物学谜题,弥补了这一空白。它解决了学术研究中缺乏高质量、结构化的科学推理测试集的困境,促使研究者关注模型从信息检索到逻辑推断的完整认知链路,从而推动人工智能在科学发现辅助领域的理论发展与方法创新。
衍生相关工作
BioMysteryBench-preview的发布催生了一系列相关学术工作,主要集中在三大方向。其一,围绕该基准的改进版本与扩展数据集陆续涌现,研究者通过增加问题难度、引入多模态数据或跨学科内容,构建更全面的科学推理评估体系。其二,基于该数据集的分析报告揭示了当前大型语言模型在生物学推理中的系统性弱点,直接引发了关于模型认知架构的讨论,推动了工具增强型推理框架及外部知识库联动模型的研究。其三,该数据集启发了对抗性测试方法的发展,研究者借鉴其谜题设计逻辑,生成更难被模型破解的推理障碍,进而评估AI系统的鲁棒性与泛化能力,为下一代智能系统的安全性研究奠定基础。
以上内容由遇见数据集搜集并总结生成



