PRECOG

Name: PRECOG
Creator: 佐治亚理工学院†, 耶路撒冷希伯来大学‡
Published: 2025-09-25 09:02:27
License: 暂无描述

arXiv2025-09-25 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/jungsoopark/PRECOG

下载链接

链接失效反馈

官方服务：

资源简介：

PRECOG是一个包含各种任务、领域和指标的文本描述-性能对的数据集，用于支持文本性能预测研究。该数据集由arXiv挖掘的实验记录组成，每个记录将数据集来源论文与结果报告论文配对。数据集包含767个实例，涉及528个不同的数据集和631篇独特的论文，涵盖了广泛的数据集和配置，而不仅仅是单个基准测试。

提供机构：

佐治亚理工学院†, 耶路撒冷希伯来大学‡

创建时间：

2025-09-25

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，PRECOG数据集通过系统化文献挖掘流程构建而成。该流程从arXiv平台获取实验记录，结合结果论文与数据集源论文，运用大语言模型提取结构化描述并实施严格的信息脱敏处理。构建过程中采用分层抽样策略确保数据多样性，覆盖528个独立数据集和631篇学术论文，最终形成767个经过人工验证的高质量实验记录。

特点

PRECOG数据集展现出多维度特征优势：其核心在于采用脱敏描述与性能指标配对的数据结构，有效规避了基准测试中的信息泄露风险。数据集涵盖七大评估指标体系，包括准确率、F1值等常用度量标准，并通过归一化处理实现跨指标可比性。特别设计的流式预测场景进一步强化了数据集的现实适用性，能够模拟对新发布数据集的零样本性能预测。

使用方法

该数据集支持基于文本描述的性能预测研究范式。使用者可输入脱敏后的实验配置描述，通过检索增强机制获取相关文献证据，最终输出标准化性能预测值。典型应用流程包含迭代式查询构建、证据筛选与推理验证三个关键环节，支持研究者开展实验优先级评估、计算资源分配等决策分析。数据集配套提供完整的评估协议与置信度校准机制，确保预测结果的可解释性与实用性。

背景与挑战

背景概述

PRECOG数据集由佐治亚理工学院与耶路撒冷希伯来大学的研究团队于2025年提出，旨在解决大语言模型评估中的效率瓶颈问题。该数据集聚焦于文本驱动的性能预测任务，即仅通过任务描述和实验配置的文本信息，预测模型在未运行实验时的性能得分。其核心研究问题在于探索如何通过文献检索与自然语言理解，实现对新任务难度的前瞻性评估，从而减少实验迭代所需的计算资源与时间成本。这一创新推动了评估范式从后验测量向先验预测的转变，对自然语言处理领域的实验设计优化与资源分配策略具有重要影响。

当前挑战

PRECOG面临的领域挑战在于解决大语言模型在开放域任务中的性能预测难题，需克服文本描述中隐含的语义复杂性与任务多样性带来的预测偏差。构建过程中的挑战包括：如何从科学文献中自动化提取并匿名化实验记录，同时确保描述信息的完整性与准确性；设计有效的检索机制以避免数据泄露，尤其在处理源论文与结果论文不一致的记录时需严格隔离相关信息；在零样本设定下平衡模型先验知识与外部证据的利用，确保预测结果既依赖逻辑推理又具备文献支持。

常用场景

经典使用场景

在自然语言处理领域，PRECOG数据集为研究者提供了评估大语言模型性能预测能力的标准化平台。该数据集通过收集arXiv文献中的实验记录，构建了包含任务描述与性能指标对应的语料库，使得研究者能够在零样本条件下仅基于文本描述预测模型在新任务上的表现。这种预测范式突破了传统评估方法需要实际运行实验的局限，为快速评估模型能力提供了创新路径。

解决学术问题

PRECOG数据集有效解决了大语言模型开发中的评估瓶颈问题。传统方法需要构建完整基准测试并运行大量实验，耗费巨大计算资源和时间成本。该数据集通过文本描述到性能指标的映射关系，支持研究者在新任务设计阶段预估模型表现，为实验优先级排序和资源配置提供数据支撑。其创新性在于将性能预测从基于数值特征的传统方法转向基于自然语言理解的推理过程，推动了评估方法学的范式转变。

衍生相关工作

基于PRECOG数据集的研究催生了多个重要方向的发展。在预测方法层面，衍生出结合检索增强的推理模型架构，通过文献检索获取相关证据提升预测准确性。在评估框架层面，推动了零泄漏预测设置的研究，确保对新发布数据集的公平评估。此外，该数据集还促进了校准技术的研究，使模型能够准确评估自身预测的不确定性，为可信赖的自动化评估系统奠定基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集