PaperBench
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/openai/preparedness
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个评估人工智能代理复制国际机器学习会议(ICML)2024年精选和口头报告论文能力的基准测试。它包含了与原作者共同开发的详细评分细则,并采用了一套加权评分系统来评估人工智能的复制能力。该数据集涵盖了20篇论文中的8,316个可评分任务,其任务重点是人工智能研究论文的复制工作。
This dataset is a benchmark for evaluating the ability of AI Agents to replicate selected and oral presentation papers from the International Conference on Machine Learning (ICML) 2024. It includes detailed scoring rubrics co-developed with the original authors, and adopts a weighted scoring system to evaluate the replication capabilities of AI systems. The dataset covers 8,316 scorable tasks across 20 papers, with the tasks focusing on the replication work of AI research papers.
提供机构:
OpenAI
搜集汇总
数据集介绍

背景与挑战
背景概述
PaperBench是一个用于评估前沿模型能力的数据集,专注于端到端复制最先进的AI论文。它提供了详细的使用指南和开发工作流程,支持研究人员复现和评估AI模型的性能。
以上内容由遇见数据集搜集并总结生成



