five

replicatorbench

收藏
Hugging Face2026-02-23 更新2026-02-24 收录
下载链接:
https://huggingface.co/datasets/domsoos/replicatorbench
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是'LLM Benchmarking Project — Scientific Replication Benchmark Data'的一部分,由开放科学中心(COS)发布,用于评估大型语言模型(LLM)代理在科学研究生命周期核心部分(尤其是复制研究)的表现。数据集支持的任务包括从科学论文中提取结构化信息到JSON、研究设计和分析规划、使用提供的复制数据集和代码进行执行支持,以及利用人类参考材料和预期输出进行科学解释。每个研究实例包含原始论文PDF、初始细节说明、复制数据目录、人类创建的预注册和报告文件,以及专家标注的预期结构化输出JSON文件。数据集适用于评估LLM系统在提取研究元数据、生成复制计划和比较模型输出与专家标注结果方面的能力。数据集采用Apache 2.0许可,但部分第三方材料可能受版权限制。
创建时间:
2026-02-20
搜集汇总
数据集介绍
构建方式
在科学研究的严谨性评估领域,replicatorbench数据集由开放科学中心精心构建,旨在为大型语言模型在科研生命周期中的关键环节提供基准测试。该数据集围绕科学复现任务,系统性地收集了已发表学术论文的原始PDF文档,并配套了复现所需的数据文件与分析脚本。每个研究实例均包含人类专家预先撰写的注册计划与复现报告,以及经过专业标注的结构化预期输出JSON文件,这些标注捕捉了科学复现计划中允许存在的合理变体,确保了数据构建的权威性与灵活性。
特点
该数据集的核心特征在于其高度结构化与任务导向的设计。每个研究实例构成一个独立且完整的评估单元,集成了从原始文献、初始指引、复现数据到人类参考材料的多模态资源。其提供的专家标注预期输出不仅作为评估的黄金标准,还通过包含多个可接受的JSON变体,反映了科学实践中对研究计划表述的合理多样性。这种设计使得数据集能够精准评估模型在信息提取、研究设计与科学解释等复杂认知任务上的性能,而非简单的文本生成。
使用方法
使用该数据集时,研究者可通过遍历按数字编号的研究目录来加载每个实例。核心操作是读取并解析`expected_post_registration.json`文件以获取基准真值,用于评估模型输出的结构化信息。建议与配套的主代码库管道结合使用,通过指定研究目录路径进行自动化评估。对于自定义评估器,需注意处理多个可接受的真值变体,对严格定义的字段采用精确匹配,而对允许释义的列表或注释字段则采用更宽容的匹配策略。数据集中的第三方材料(如原始论文PDF)需用户自行确保符合分发许可。
背景与挑战
背景概述
在人工智能与科学研究的交叉领域,大型语言模型(LLM)的评估日益成为推动科学方法自动化的关键。由开放科学中心(COS)于2026年发布的replicatorbench数据集,旨在系统评估LLM代理在科学复制生命周期中的核心能力。该数据集聚焦于从科学论文中提取结构化信息、设计研究方案及支持分析执行等任务,通过提供原始论文、复制数据及专家标注的真实输出,为量化模型在复杂科学工作流中的表现建立了标准化基准。其创建不仅响应了科研可重复性危机的迫切需求,也为自动化科学辅助工具的发展提供了重要数据支撑,推动了计算社会科学与人工智能融合的深度探索。
当前挑战
replicatorbench数据集所应对的核心领域挑战在于科学复制过程的自动化,这涉及从非结构化文本中精确提取研究设计、变量与假设等复杂信息,并生成可执行的复制计划,要求模型具备高阶推理与领域知识整合能力。在构建过程中,数据集面临多重挑战:一是确保原始论文与复制数据的版权合规性,需平衡开放共享与法律约束;二是处理多样化的文件格式(如PDF、R、Stata脚本),要求标注流程适应异构数据源;三是设计能够容纳科学表达变体的真实输出变体(如多版本JSON),以捕捉复制任务中合理的解释差异,这增加了评估标准制定的复杂性。
常用场景
解决学术问题
该数据集致力于解决人工智能在科学方法论应用中的核心挑战,即如何确保模型能够准确理解并执行复现研究所需的逻辑步骤。通过提供人类专家标注的预期输出,它为标准化的模型评估奠定了基础,有助于量化模型在信息提取、研究设计及科学解释等任务上的性能。这不仅促进了可重复性研究范式的自动化进程,还为评估模型在真实科研场景中的可靠性提供了实证依据,对提升科学研究的透明度和效率具有深远意义。
衍生相关工作
围绕replicatorbench数据集,已衍生出一系列专注于科学复现自动化的研究工作。这些工作通常涉及开发新型的评估框架,以比较不同模型在结构化信息提取任务上的准确性,或探索多模态学习技术,整合文本与代码数据以提升复现规划的完整性。部分研究进一步扩展了基准的适用范围,将其应用于特定学科领域,如心理学或经济学,从而检验模型在跨学科复现挑战中的泛化能力,为构建更通用的科研智能体奠定了理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作