ResearchClawBench

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/InternScience/ResearchClawBench

下载链接

链接失效反馈

官方服务：

资源简介：

ResearchClawBench是一个用于评估AI编码代理能否独立进行科学研究的基准测试，从读取原始数据到生成可发表质量的研究报告，并将其结果与真实人类撰写的论文进行严格对比。该数据集包含40个真实科学任务，涵盖天文学、化学、地球科学等10个学科领域，每个任务都基于已发表论文的完整实验数据集。数据集采用两阶段评估流程：自主研究阶段（AI代理需独立分析数据、编写代码并生成报告）和基于参考的评估阶段（使用多模态LLM法官根据精细检查清单对报告进行评分）。每个任务包含原始数据集、参考材料、任务说明和评估检查清单。数据集结构清晰，包含任务信息、原始数据、相关工作和目标研究论文等目录。该基准测试支持多种AI代理，并提供实时流式UI观察代理的研究过程。

ResearchClawBench is a benchmark dataset for evaluating whether AI coding agents can conduct independent scientific research, covering the full pipeline from reading raw data to generating publishable-quality research reports, with its results rigorously compared against papers written by real human researchers. This dataset comprises 40 real-world scientific tasks across 10 academic disciplines including astronomy, chemistry, earth sciences and other related fields, with each task built upon the complete experimental dataset from a published academic paper. The dataset adopts a two-stage evaluation workflow: the autonomous research phase, where the AI agent is required to independently analyze data, write code and generate research reports, and the reference-based evaluation phase, where a multimodal LLM judge scores the generated reports based on a detailed inspection checklist. Each individual task includes raw datasets, reference materials, task instructions and an evaluation checklist. The dataset features a well-organized structure, with dedicated directories for task information, raw data, related work, target research papers and other relevant contents. This benchmark supports multiple AI agents, and provides a real-time streaming UI to observe the research process of the agents.

创建时间：

2026-03-27

搜集汇总

数据集介绍

构建方式

在科学计算与人工智能交叉领域，构建高质量基准测试对于评估智能体自主科研能力至关重要。ResearchClawBench的构建遵循严谨的专家驱动流程：首先由领域专家从十个学科中遴选具有清晰方法论和可复现结果的高影响力论文；随后专家团队提取核心研究任务并转化为结构化指令，同时设计包含加权标准和关键技术关键词的细粒度评估清单；最后通过收集原始实验数据集及相关参考文献形成自包含研究环境，并由人类研究者独立复现论文结果以验证清单的可行性，确保基准测试的科学有效性与公平性。

特点

该数据集的核心特征体现在其真实性与多维评估体系。数据集涵盖天文学、化学、物理学等十个科学领域的四十项真实研究任务，每项任务均基于已发表论文的完整实验数据构建，摒弃了传统基准测试中的玩具问题。其独创的双阶段评估机制模拟了真实科研流程：第一阶段要求智能体在沙盒环境中自主完成从数据探索到生成学术报告的完整研究过程；第二阶段采用基于参考论文的细粒度检查清单，通过多模态大语言模型法官进行客观量化与主观分析的双模式评分，实现了从方法匹配到超越原创的连续性能力度量。

使用方法

研究人员可通过标准化流程便捷地使用该基准测试。首先克隆代码库并安装依赖环境，配置评分模型凭证后选择支持的智能体框架进行部署。启动本地服务器后，用户可通过交互界面浏览跨学科任务，选择智能体并启动实时研究流程，观察代码生成与数据分析的完整过程。任务完成后系统自动切换至评估阶段，基于原始论文与检查清单进行多维度评分。数据集支持自定义智能体的集成，仅需在配置文件中添加相应命令模板即可扩展评估范围，同时提供任务提交渠道供社区贡献新的研究挑战。

背景与挑战

背景概述

在人工智能迈向通用智能的演进历程中，评估模型从被动知识问答转向主动问题解决的能力成为关键前沿。ResearchClawBench基准由InternScience团队于2026年3月正式发布，旨在系统评估AI智能体能否像人类研究者一样，从原始数据出发独立完成端到端的科学研究。该基准的核心研究问题聚焦于AI智能体在给定与人类研究者相同数据和工具的条件下，能否复现乃至超越已发表论文的科学结论。其创新性在于构建了一个包含自主研究和同行评审式评估的两阶段管道，覆盖天文学、化学、物理学等10个科学领域的40项真实研究任务，每项任务均基于已发表论文的完整实验数据集。这一基准的建立，为衡量AI在复杂科学发现任务中的自主性与创造性设立了新的标准，推动了AI从知识库向研究伙伴的角色转变。

当前挑战

ResearchClawBench致力于解决AI智能体进行自动化科学研究所面临的核心挑战，即如何超越传统的编码或事实回忆测试，评估智能体在开放环境中整合数据、生成代码、进行分析并形成科学见解的综合能力。构建过程中的首要挑战在于确保科学有效性与可复现性，这要求从高质量论文中精确提取核心任务，并由领域专家设计细粒度的、包含文本与图像的多模态评估清单。其次，数据收集与整理面临严峻考验，需要为每项任务汇集原始数据集及相关参考文献，构成自包含的研究工作空间，并需通过人工复现验证每项评估标准的可实现性。此外，设计公平且严谨的评估机制亦是一大难题，需建立客观与主观相结合的双模式评分体系，并确保LLM评审员能以高度怀疑的态度，严格依据具体技术关键词验证AI报告的实质性证据。

常用场景

经典使用场景

在人工智能驱动的自动化科学研究领域，ResearchClawBench数据集为评估AI智能体独立开展完整科研流程的能力提供了基准测试框架。其经典使用场景在于模拟真实科研环境，要求智能体从原始数据出发，通过自主编码、数据分析和可视化，最终生成符合出版质量的研究报告。这一过程严格遵循从数据探索到结论形成的科学方法论，覆盖天文学、化学、物理学等十个学科领域，使研究者能够系统检验智能体在复杂科学问题中的推理与执行效能。

解决学术问题

该数据集致力于解决自动化科学研究中智能体评估标准缺失的核心学术问题。传统基准多侧重于编码能力或事实回忆，而ResearchClawBench通过引入两阶段评估管道——自主研究加同行评审式评价——构建了多维度的科学有效性衡量体系。其细粒度检查清单与多模态评分机制，为量化智能体科学发现的可重复性、创新性及严谨性提供了方法论基础，推动了AI智能体从知识复现到超越人类研究的范式转变。

衍生相关工作

围绕该数据集衍生的经典工作主要包括多智能体协同科研框架的优化、基于检查清单的自动化评估算法改进，以及跨领域科学问题迁移学习方法的探索。研究者通过扩展任务库至HuggingFace社区提交的新任务，持续丰富基准的学科覆盖范围。同时，开源社区基于其评估协议开发了轻量级替代智能体如Nanobot，进一步推动了高效可靠的多步骤工具执行架构的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集