InternScience/ResearchClawBench
收藏Hugging Face2026-05-07 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/InternScience/ResearchClawBench
下载链接
链接失效反馈官方服务:
资源简介:
ResearchClawBench是一个基准测试,旨在评估AI编码代理是否能够独立进行科学研究——从阅读原始数据到生成可发表的报告——并将结果与真实人类撰写的论文进行严格比较。不同于测试编码能力或事实记忆的基准,ResearchClawBench提出:给定一个精心策划的科学工作空间和相同的研究目标,AI代理能否得出相同(或更好)的科学结论?该数据集包含10个科学领域的40个任务,每个任务都配有从已发表论文中精选的数据集。
ResearchClawBench is a benchmark that measures whether AI coding agents can independently conduct scientific research — from reading raw data to producing publication-quality reports — and then rigorously evaluates the results against real human-authored papers. Unlike benchmarks that test coding ability or factual recall, ResearchClawBench asks: given a curated scientific workspace and the same research goal, can an AI agent arrive at the same (or better) scientific conclusions? The dataset includes 40 tasks across 10 scientific domains, each with curated datasets from published papers.
提供机构:
InternScience
搜集汇总
数据集介绍

构建方式
ResearchClawBench的构建遵循一条严谨且经专家验证的流水线。首先,由领域专家精选来自十个科学学科的高影响力近期论文作为目标研究。随后,人类专家深入研读每篇论文,将核心研究任务提炼为结构化指令,明确科学问题、输入数据与预期产出。接着,专家设计细粒度的评估检查表,其中包含加权文本与图像标准及具体技术关键词。最后,通过为每项任务配置原始数据集与相关参考文献形成研究工作空间,并由独立研究人员进行人工复现,确保所有检查项均可达成,从源头上保障了基准测试的公平性与检查表的现实可操作性。
特点
该数据集最鲜明的特质在于其从‘复现’迈向‘新发现’的测评哲学。它涵盖40项源自真实已发表论文的任务,横跨天文学、化学、地球科学等十大领域,摒弃了玩具问题,聚焦于真正的科学挑战。其评估体系采用双阶段流水线:先由AI智能体自主完成从数据探索到报告撰写的完整科研流程,再经由一个扮演严苛同行评审角色的多模态大语言模型,依据加权检查表进行计分。评分标准具有前瞻性,50分意味着匹配原论文,70分以上则代表超越,为衡量AI的自主科研能力树立了全新的标杆。
使用方法
使用ResearchClawBench直观便捷。用户首先通过GitHub克隆仓库并安装基础依赖,随后可为选定的智能体(如Claude Code、Codex CLI等)配置环境变量。通过简单的命令行 `python -m evaluation` 即可启动内置的Flask Web界面。在该界面上,用户可浏览全部40项科研任务,选择任一智能体并启动运行,全程可实时观察智能体编写代码、绘制图表和撰写报告的过程。任务完成后,切换至评估选项卡,调用多模态评判模型,系统将自动依据检查表逐项打分并生成带有推理过程的结果,最终成绩会同步至在线排行榜供社区比较与参考。
背景与挑战
背景概述
ResearchClawBench由InternScience团队于2026年创建,是一项旨在衡量AI智能体能否独立完成完整科学研究流程的基准测试。该数据集涵盖天文学、化学、地球科学、能源、信息学、生命科学、材料科学、数学、神经科学和物理学等10个学科领域,包含40个精心设计的任务,每个任务均源自真实发表的高质量学术论文。其核心研究问题在于:给予相同的科研工作空间和研究目标,AI智能体能否得出与人类研究者相同甚至更优的科学结论。ResearchClawBench通过两阶段流水线——自主研究阶段与基于同行评议的严格评估阶段——为AI科学研究能力的量化评估提供了全新范式,对人工智能辅助科学研究领域产生了深远影响。
当前挑战
ResearchClawBench所应对的领域挑战在于,现有基准测试多聚焦于代码编写能力或事实回忆,而真正衡量AI智能体能否完成从原始数据处理到发表级报告撰写的自主科学研究这一关键问题尚未被充分解决。在数据集构建过程中,挑战尤为显著:专家需从已发表论文中提炼核心研究任务并确保指令清晰、可复现;设计细粒度评估检查表时,必须精确捕捉论文关键贡献的技术关键词与权重分配;同时需收集并整理相关数据集与参考资料以构成研究空间;最终通过人类独立复现验证以保证每个检查项均具可操作性与公平性,这一链条的每一步都要求极高的专业性与严谨性。
常用场景
经典使用场景
在人工智能与科学研究深度融合的前沿领域,ResearchClawBench以其独特的设计理念,成为衡量AI智能体自主科研能力的标杆性基准测试。该数据集最经典的使用场景在于评估编码代理能否从零开始独立完成一项完整的科学研究——从接收原始实验数据与结构化任务指令开始,自主进行数据探索、代码编写、模型构建、可视化呈现,直至最终产出一份达到发表质量的科研报告。这一全流程自动化评估模式,将AI从被动的问题回答者转变为主动的科研执行者,为衡量人工智能在真实科研环境中的综合素养提供了前所未有的量化标尺。
衍生相关工作
ResearchClawBench的发布催生了一系列具有深远影响的衍生工作。其开放架构与丰富的智能体预设库,直接推动了ResearchClaw、EvoScientist、Nanobot等专用科研代理系统的研发迭代,这些系统在基准测试的驱动下不断优化自主科研能力。同时,轻量级基线的ResearchHarness应运而生,为快速测试不同大语言模型在同等工作流中的表现提供了标准化工具。在评估方法论层面,该数据集的双模态评分机制与精细化的核查清单设计理念,已被后续多项研究借鉴,用于构建更可靠的AI辅助科研成果评价体系。这些衍生工作共同勾勒出一幅生机勃勃的科研生态图景:以标准化基准为锚点,不断激发着人工智能与科学发现相互赋能的新范式。
数据集最近研究
最新研究方向
在人工智能与科学发现深度交融的前沿浪潮中,ResearchClawBench应运而生,它标志着AI智能体评估范式从知识记忆迈向自动化科学研究的范式跃迁。该基准测试聚焦于衡量AI编码智能体独立完成完整科研流程的能力,涵盖从原始数据探索、代码编写、图表生成到报告撰写的全过程,并通过双阶段流水线——自主研究与基于同行评议的严格评估——对结果进行量化评判。其40个真实科学任务横跨天文、化学、生命、物理等10大学科,每个任务均源自已发表论文并经由领域专家精心标注,配有细粒度加权检查表与多模态评分机制,使AI的科研产出能够与人类论文进行客观对比。当前,该基准已支持Claude Code、Codex CLI、OpenClaw等多种智能体,并引入从再发现到新发现的评分体系——超过50分意味着匹配原论文水平,70分以上则意味着超越人类研究。这一创新性工作不仅为自动科学发现提供了标准化评估平台,更推动了AI辅助科研从概念验证走向实证落地,对未来科研范式的重塑具有深远意义。
以上内容由遇见数据集搜集并总结生成



