CORE-Bench
收藏arXiv2024-09-18 更新2024-09-19 收录
下载链接:
https://github.com/siegelz/core-bench
下载链接
链接失效反馈官方服务:
资源简介:
CORE-Bench是由普林斯顿大学开发的一个计算可重复性代理基准数据集,包含270个任务,基于90篇跨计算机科学、社会科学和医学领域的科学论文。数据集内容涵盖了不同难度级别的任务,包括仅语言和视觉语言任务。数据集的创建过程包括从CodeOcean.com库中筛选可重复的论文,并根据可用信息创建不同难度级别的任务。CORE-Bench旨在评估AI代理在科学研究中自动化计算可重复性任务的能力,解决现有研究结果的可重复性问题。
提供机构:
普林斯顿大学
创建时间:
2024-09-18
原始信息汇总
CORE-Bench 数据集概述
数据集简介
CORE-Bench 是一个评估代理计算重现科学论文能力的基准测试。它包含来自计算机科学、社会科学和医学领域的90篇论文中的270个任务,这些任务使用Python或R编写。
任务要求
要成功完成任务,代理必须:
- 阅读任务提示和问题。
- 导航代码仓库以安装依赖项。
- 运行代码以生成结果。
- 阅读代码结果以回答任务问题。
数据集结构
- 任务提示和问题:包含在数据集的JSON文件中。
- 代码仓库:自动从https://corebench.cs.princeton.edu/capsules/capsule-XXXXXXX.tar.gz下载,其中
XXXXXXX是capsule_id。
数据集访问
- 数据集文件:
benchmark/dataset/core_test.json.gpg - 解密密码:
reproducibility
数据集使用
- Azure设置:推荐在Azure VM上运行代理,需配置Azure CLI。
- 本地设置:仅用于调试,不推荐在生产环境中使用。
数据集扩展
- 添加新代理:在
agents目录中创建新目录,并编写启动代理的Bash脚本。 - 提交答案:代理完成任务后,将答案写入
environment目录中的report.json文件。
数据集相关资源
- 论文:可在arXiv上查看。
- 数据集:可在Hugging Face上查看。
搜集汇总
数据集介绍

构建方式
CORE-Bench 数据集的构建基于 CodeOcean 平台上的 90 篇科学论文,涵盖计算机科学、社会科学和医学三个领域。这些论文均包含 Python 或 R 代码库,并通过 CodeOcean 的胶囊(capsule)进行验证,确保其本地可重复性。每篇论文根据其可重复性信息创建了三个不同难度的任务,共计 270 个任务。任务难度分为三个层次:提供代码输出结果、提供 Dockerfile 以及仅提供 README 文件。这种设计旨在评估代理在不同信息提供情况下的复现能力。
特点
CORE-Bench 数据集的特点在于其任务的真实性和多样性。任务不仅包括代码执行和库安装,还涉及信息检索和工具使用等多项技能。此外,数据集中的任务涵盖了文本和视觉两种输出类型,要求代理能够处理和解释从命令行文本、PDF 文本、HTML 文件等多种来源的数据。这种多模态的设计使得 CORE-Bench 成为一个全面评估代理复现能力的基准。
使用方法
使用 CORE-Bench 数据集时,开发者可以通过提供的评估系统对代理进行快速并行评估。该系统在隔离的虚拟机中运行每个任务,确保评估的标准化和可重复性。开发者可以利用 CORE-Bench 的基准测试来评估和改进代理在科学研究中复现结果的能力。此外,数据集的公开仓库设计允许定期更新任务,以适应代理技术的发展和变化。
背景与挑战
背景概述
CORE-Bench数据集由普林斯顿大学的Zachary S. Siegel、Sayash Kapoor、Nitya Nadgir、Benedikt Stroebl和Arvind Narayanan于2024年创建,旨在评估AI代理在科学研究中计算可重复性任务的准确性。该数据集包含270个任务,基于90篇跨计算机科学、社会科学和医学领域的科学论文。CORE-Bench的构建旨在解决科学研究中一个关键但极具挑战性的方面:计算可重复性。这一任务对于科学过程至关重要,涉及使用提供的代码和数据重现研究结果。CORE-Bench的引入旨在推动AI代理的发展,使其能够在实际任务中发挥作用,从而提高研究的可靠性和可重复性。
当前挑战
CORE-Bench数据集面临的挑战主要集中在两个方面:一是解决科学研究中计算可重复性问题的复杂性,包括代码和数据版本的不确定性、不同机器架构和操作系统的兼容性问题,以及研究结果的内在变异性;二是数据集构建过程中遇到的实际困难,如验证每篇论文的可重复性需要大量领域专家的参与,且过程耗时。此外,AI代理在处理多文件结果检索、依赖安装和版本冲突等问题时也表现出显著的困难,这进一步凸显了自动化科学研究任务的复杂性和当前技术的局限性。
常用场景
经典使用场景
CORE-Bench数据集的经典使用场景在于评估人工智能代理在科学研究中计算可重复性任务的准确性。该数据集包含270个任务,基于90篇跨计算机科学、社会科学和医学领域的科学论文,涵盖三种难度级别。通过这些任务,研究者可以测试代理在安装库、包和依赖项,运行代码,以及从输出中提取结果的能力。这种评估不仅有助于衡量代理在处理复杂科学任务中的表现,还为开发更高效的自动化科学研究工具提供了基准。
实际应用
在实际应用中,CORE-Bench数据集可以用于多种场景。例如,研究人员可以使用该数据集来验证其工作的可重复性,确保研究结果的可靠性。独立研究者可以利用该数据集来更容易地复制过去的研究,从而促进知识的积累和验证。此外,会议组织者和期刊编辑可以使用CORE-Bench来高效评估提交论文的可重复性,确保发表的研究具有高度的可信度和科学价值。
衍生相关工作
CORE-Bench数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究者们开发了专门针对计算可重复性任务的AI代理,如CORE-Agent,这些代理在特定任务上表现出色。此外,CORE-Bench还激发了对AI代理在科学研究中应用的广泛讨论,推动了自动化科学研究工具的发展。这些衍生工作不仅提升了AI代理在科学研究中的实用性,还为未来的研究方向提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



