replicatorbench

Hugging Face2026-02-23 更新2026-02-24 收录

下载链接：

https://huggingface.co/datasets/domsoos/replicatorbench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是'LLM Benchmarking Project — Scientific Replication Benchmark Data'的一部分，由开放科学中心（COS）发布，用于评估大型语言模型（LLM）代理在科学研究生命周期核心部分（尤其是复制研究）的表现。数据集支持的任务包括从科学论文中提取结构化信息到JSON、研究设计和分析规划、使用提供的复制数据集和代码进行执行支持，以及利用人类参考材料和预期输出进行科学解释。每个研究实例包含原始论文PDF、初始细节说明、复制数据目录、人类创建的预注册和报告文件，以及专家标注的预期结构化输出JSON文件。数据集适用于评估LLM系统在提取研究元数据、生成复制计划和比较模型输出与专家标注结果方面的能力。数据集采用Apache 2.0许可，但部分第三方材料可能受版权限制。

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在科学研究的严谨性评估领域，replicatorbench数据集由开放科学中心精心构建，旨在为大型语言模型在科研生命周期中的关键环节提供基准测试。该数据集围绕科学复现任务，系统性地收集了已发表学术论文的原始PDF文档，并配套了复现所需的数据文件与分析脚本。每个研究实例均包含人类专家预先撰写的注册计划与复现报告，以及经过专业标注的结构化预期输出JSON文件，这些标注捕捉了科学复现计划中允许存在的合理变体，确保了数据构建的权威性与灵活性。

特点

该数据集的核心特征在于其高度结构化与任务导向的设计。每个研究实例构成一个独立且完整的评估单元，集成了从原始文献、初始指引、复现数据到人类参考材料的多模态资源。其提供的专家标注预期输出不仅作为评估的黄金标准，还通过包含多个可接受的JSON变体，反映了科学实践中对研究计划表述的合理多样性。这种设计使得数据集能够精准评估模型在信息提取、研究设计与科学解释等复杂认知任务上的性能，而非简单的文本生成。

使用方法

使用该数据集时，研究者可通过遍历按数字编号的研究目录来加载每个实例。核心操作是读取并解析`expected_post_registration.json`文件以获取基准真值，用于评估模型输出的结构化信息。建议与配套的主代码库管道结合使用，通过指定研究目录路径进行自动化评估。对于自定义评估器，需注意处理多个可接受的真值变体，对严格定义的字段采用精确匹配，而对允许释义的列表或注释字段则采用更宽容的匹配策略。数据集中的第三方材料（如原始论文PDF）需用户自行确保符合分发许可。

背景与挑战

背景概述

在人工智能与科学研究的交叉领域，大型语言模型（LLM）的评估日益成为推动科学方法自动化的关键。由开放科学中心（COS）于2026年发布的replicatorbench数据集，旨在系统评估LLM代理在科学复制生命周期中的核心能力。该数据集聚焦于从科学论文中提取结构化信息、设计研究方案及支持分析执行等任务，通过提供原始论文、复制数据及专家标注的真实输出，为量化模型在复杂科学工作流中的表现建立了标准化基准。其创建不仅响应了科研可重复性危机的迫切需求，也为自动化科学辅助工具的发展提供了重要数据支撑，推动了计算社会科学与人工智能融合的深度探索。

当前挑战

replicatorbench数据集所应对的核心领域挑战在于科学复制过程的自动化，这涉及从非结构化文本中精确提取研究设计、变量与假设等复杂信息，并生成可执行的复制计划，要求模型具备高阶推理与领域知识整合能力。在构建过程中，数据集面临多重挑战：一是确保原始论文与复制数据的版权合规性，需平衡开放共享与法律约束；二是处理多样化的文件格式（如PDF、R、Stata脚本），要求标注流程适应异构数据源；三是设计能够容纳科学表达变体的真实输出变体（如多版本JSON），以捕捉复制任务中合理的解释差异，这增加了评估标准制定的复杂性。

常用场景

解决学术问题

该数据集致力于解决人工智能在科学方法论应用中的核心挑战，即如何确保模型能够准确理解并执行复现研究所需的逻辑步骤。通过提供人类专家标注的预期输出，它为标准化的模型评估奠定了基础，有助于量化模型在信息提取、研究设计及科学解释等任务上的性能。这不仅促进了可重复性研究范式的自动化进程，还为评估模型在真实科研场景中的可靠性提供了实证依据，对提升科学研究的透明度和效率具有深远意义。

衍生相关工作

围绕replicatorbench数据集，已衍生出一系列专注于科学复现自动化的研究工作。这些工作通常涉及开发新型的评估框架，以比较不同模型在结构化信息提取任务上的准确性，或探索多模态学习技术，整合文本与代码数据以提升复现规划的完整性。部分研究进一步扩展了基准的适用范围，将其应用于特定学科领域，如心理学或经济学，从而检验模型在跨学科复现挑战中的泛化能力，为构建更通用的科研智能体奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集