proof-of-time

Hugging Face2026-01-12 更新2026-01-13 收录

下载链接：

https://huggingface.co/datasets/AIM-Harvard/proof-of-time

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于评估大型语言模型（LLM）代理在学术论文分析任务上的基准测试，这些任务需要理解研究趋势、引用和未来方向。所有评估数据使用**训练后截止**（2025年）的论文，以避免数据污染。数据集包括基准任务和沙盒数据，涵盖奖项预测、引用预测、教师未来工作预测和SOTA预测等多个任务。基准任务目录包含4个任务家族的10个评估数据集，而沙盒数据目录则包含历史论文数据、教师出版物和SOTA指标等参考数据。

创建时间：

2026-01-09

原始信息汇总

Proof of Time: Academic Paper Analysis Benchmarks 数据集概述

数据集基本信息

数据集名称：Proof of Time: Academic Paper Analysis Benchmarks
发布者：AIM Harvard
发布日期：2025-01-08
许可证：MIT
语言：英语 (en)
数据规模：1K<n<10K
任务类别：问答、文本分类
标签：学术论文、LLM智能体、基准测试、inspect-ai、ReAct智能体、引用、研究趋势

数据集目的与核心特征

目的：用于评估大语言模型智能体在需要理解研究趋势、引用和未来方向的学术论文分析任务上的性能。
核心特征：所有评估数据均使用训练后截止日期（2025年）之后的论文，以避免数据污染。
焦点：时间推理。智能体必须分析历史模式以预测未来的研究方向、奖项获得者和引用影响力，任务要求真正理解研究趋势而非记忆。

数据集结构

数据集总大小约为69.8 MB，包含两个主要目录。

基准测试目录 (3.8 MB)

包含4个任务系列，共10个评估数据集。

奖项预测 (641 KB)
- pre-cutoff_mcq.jsonl (421 KB)：2025年之前的会议奖项（ACL/EMNLP/NAACL 2018-2024）。
- post-cutoff_emnlp.jsonl (29 KB)：2025年之后的EMNLP奖项。
- post-cutoff_acl_naacl.jsonl (191 KB)：2025年之后的ACL/NAACL奖项。
引用预测 (2.7 MB)
- multiple_choice.jsonl (1.1 MB)：预测选项中引用最高的论文。
- ranking.jsonl (1.2 MB)：按预测引用量对论文排序。
- bucket_prediction.jsonl (368 KB)：将论文按引用范围分类（0-1, 1-5, 5-10, 10-50, 50+）。
教师未来工作预测 (469 KB)
- professor_field_mcq.jsonl (49 KB)：预测教授未来工作的研究领域。
- professor_article_mcq.jsonl (404 KB)：预测教授将撰写哪篇文章。
- field_focus_mcq.jsonl (16 KB)：按领域分类研究重点。
SOTA性能预测 (26 KB)
- mcq_dataset.jsonl (26 KB)：预测基准测试性能范围（0-20, 20-40, 40-60, 60-80, 80-100）。

沙盒数据目录 (66 MB)

为ReAct智能体在评估期间查询提供参考数据。

citation/historical_papers_2021_2024.jsonl (21 MB)：带有引用计数的历史论文。
award/accepted_papers.csv (19 MB)：EMNLP录用论文（2018-2025）。
faculty/faculty_publications.jsonl (20 MB)：76位AI教师的汇总出版物。
faculty/faculty_publications.tar.gz (5.9 MB)：每位教师的独立CSV文件。
sota/sota_metrics.json (8.7 KB)：前沿模型基准测试分数（2025年10月）。

数据字段

每个基准测试JSONL文件包含以下字段的样本：

question：给智能体的任务提示。
answer：正确答案（用于评估）。
choices：多项选择选项（如适用）。
metadata：额外上下文（论文标题、年份、会议、作者等）。

基准测试设计

ReAct智能体：智能体使用工具（bash、Python、文本编辑器）探索沙盒化的论文数据集。
沙盒化环境：包含只读论文数据的Docker容器（无网络访问）。
离线提示：受专注探索原则启发的自定义“Antigravity”提示。
多版本：每个任务都有标准（智能体）、简单（零样本）和无离线提示版本。

支持模型

基准测试套件已测试以下模型：

OpenAI：gpt-5.2, gpt-5.1, gpt-5-mini, gpt-5-nano
Google：gemini-3-pro, gemini-3-flash, vertex/gemini-2.5-pro, vertex/gemini-2.5-flash
Anthropic：vertex/claude-opus-4-5, vertex/claude-sonnet-4-5, vertex/claude-haiku-4-5

数据来源

奖项预测：ACL Anthology、EMNLP/ACL/NAACL会议论文集。
引用预测：Google Scholar引用计数。
教师预测：AI教师简历和发表记录。
SOTA预测：Papers with Code排行榜。

引用信息

论文引用（待审稿）： bibtex @article{proof-of-time-2025, title={Proof of Time: Benchmarking LLM Agents on Academic Paper Analysis}, author={TBD}, journal={Under Review}, year={2025} }
数据集引用： bibtex @dataset{proof-of-time-dataset-2025, title={Proof of Time: Academic Paper Analysis Benchmarks}, author={AIM Harvard}, year={2025}, publisher={HuggingFace}, url={https://huggingface.co/datasets/AIM-Harvard/proof-of-time} }

相关资源

GitHub仓库：https://github.com/shan23chen/proof_of_time
设置指南：https://github.com/shan23chen/proof_of_time/blob/main/SETUP.md
问题反馈：https://github.com/shan23chen/proof_of_time/issues

搜集汇总

数据集介绍

构建方式

在学术文献分析领域，Proof of Time数据集的构建体现了对时间推理能力的深度考量。该数据集通过整合多个权威学术资源，包括ACL Anthology的会议论文集、Google Scholar的引用数据、人工智能领域教师的履历与出版物，以及Papers with Code的排行榜信息，精心构建了涵盖奖项预测、引用量预测、教师研究方向预测和前沿技术预测四大任务族。所有评估样本均采用2025年后的论文数据，有效避免了训练数据污染问题，确保了评估的时效性与公正性。数据集结构清晰，包含基准测试任务文件与供智能体查询的沙盒参考数据，为评估大语言模型在学术趋势分析上的真实理解力奠定了坚实基础。

特点

Proof of Time数据集的核心特征在于其专注于时间推理与未来预测的评估范式。数据集设计了四大任务族，要求模型必须基于历史文献模式进行分析，而非依赖简单的记忆，从而真正检验其对研究趋势、引用影响及学术发展动态的深层理解。其评估环境采用沙盒化设计，智能体在受限的、无网络访问的Docker容器中，通过调用工具查询只读的论文数据集来完成任务，模拟了真实的科研分析场景。此外，数据集为每个任务提供了标准智能体、简单零样本以及无离线提示等多种评估变体，并已适配包括OpenAI、Google和Anthropic在内的多个前沿模型系列，确保了评估的全面性与灵活性。

使用方法

为有效利用Proof of Time数据集进行评估，研究者需首先通过Hugging Face的`datasets`库加载该数据集。评估流程主要依托Inspect AI框架进行，用户需克隆项目仓库以获取具体的基准测试实现脚本。在配置好依赖环境后，可通过命令行或Python脚本指定具体的评估任务、目标模型及样本数量来启动评估。例如，针对奖项预测任务，可运行相应命令，让模型在沙盒环境中分析提供的学术数据并给出预测。数据集中的每个样本均包含清晰的问题描述、选项、正确答案及丰富的元数据，为自动化评估提供了标准化接口，使得对大语言模型在学术分析任务上的性能评测变得高效且可复现。

背景与挑战

背景概述

Proof of Time数据集由AIM Harvard研究团队于2025年创建，旨在为大语言模型智能体在学术论文分析任务上提供系统性评估基准。该数据集聚焦于自然语言处理与人工智能领域，核心研究问题在于检验智能体对学术研究趋势、文献引用网络及未来发展方向进行深度时序推理的能力。通过引入后训练截止期（2025年）的论文数据，该基准有效避免了数据污染问题，为评估模型在真实学术场景下的分析与预测性能提供了严谨框架，对推动智能体在科学发现辅助、学术趋势研判等方向的应用具有重要影响力。

当前挑战

该数据集致力于解决学术论文分析中时序推理与未来预测这一复杂领域问题，其核心挑战在于要求智能体超越静态知识记忆，实现对研究动态演变规律的本质理解。具体任务如奖项预测、引用量预报及学者研究方向推断，均需模型整合历史文献模式并推导未来轨迹，这对模型的因果推理与逻辑归纳能力提出了极高要求。在构建过程中，挑战主要源于多源异构学术数据的采集、清洗与对齐，包括从会议论文集、学者履历及引用数据库中提取结构化信息，并确保时序标注的准确性与评估任务的科学设计，以构建可靠且无偏的评估环境。

常用场景

经典使用场景

在自然语言处理与人工智能研究领域，Proof of Time数据集为评估大型语言模型代理在学术论文分析任务中的表现提供了标准化基准。该数据集通过设计包含奖项预测、引用量预测、学者未来研究方向预测以及前沿性能预测在内的多样化任务，模拟了真实学术环境中的复杂推理需求。研究者利用该数据集能够系统地测试模型在理解研究趋势、分析引用网络及预测未来学术动态方面的能力，从而推动智能代理在学术分析场景中的性能优化与创新。

解决学术问题

Proof of Time数据集致力于解决当前大模型评估中普遍存在的数据污染与记忆依赖问题，通过采用训练后截止时间（2025年）的论文数据，确保评估结果反映模型真实的推理能力而非知识记忆。该数据集通过引入时间推理维度，挑战模型基于历史模式预测未来学术发展的能力，从而为衡量模型的深层理解与逻辑推断提供了可靠工具。其意义在于为学术界建立了一个严谨、可复现的评估框架，促进了智能代理在复杂学术任务中的可信度与实用性研究。

衍生相关工作

围绕Proof of Time数据集，已衍生出多项经典研究工作，主要集中在智能代理架构优化与时间推理模型构建方面。例如，基于该数据集开发的ReAct代理框架，通过结合工具调用与环境交互，显著提升了模型在学术分析任务中的探索与推理能力。同时，一系列研究致力于改进模型在奖项预测与引用量预测中的时序建模技术，推动了时间感知的神经网络方法在学术文本分析中的应用与发展。

以上内容由遇见数据集搜集并总结生成