Test-time scaling reasoning models evaluation data

github2025-09-09 更新2025-09-12 收录

下载链接：

https://github.com/XuZhao0/tts-knowledge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含12个推理模型在两个知识密集型基准测试（SimpleQA和FRAMES）上不同思考级别的输出结果。SimpleQA包含800个简短的事实寻求问题，FRAMES包含824个复杂的事实寻求问题。每个输出包括模型响应、推理轨迹（如适用）、评估标签（正确、不正确或未尝试）以及令牌计数等元数据

This dataset contains the outputs of 12 reasoning models across different levels of thinking on two knowledge-intensive benchmark tests, SimpleQA and FRAMES. SimpleQA consists of 800 short factual-seeking questions, while FRAMES includes 824 complex factual-seeking questions. Each output entry includes model responses, reasoning traces (where applicable), evaluation labels (correct, incorrect, or unattempted), as well as metadata such as token counts.

创建时间：

2025-09-08

原始信息汇总

数据集概述

基本信息

数据集名称：Test-Time Scaling in Reasoning Models for Knowledge-Intensive Tasks
对应论文：Test-time scaling in reasoning models is not effective for knowledge-intensive tasks yet
创建者：James Xu Zhao, Bryan Hooi, See-Kiong Ng
发布时间：2025年
联系方式：xu.zhao@u.nus.edu

数据集内容

基准测试

SimpleQA：包含800个简短的事实性问题，随机采样自simple-evals
FRAMES：包含824个复杂的事实性问题，来源于frames-benchmark

模型输出

模型数量：12个推理模型
评估设置：不同思维层级下的模型输出
输出内容：模型响应、推理轨迹（如适用）、评估标签（正确、错误或未尝试）以及元数据（如令牌计数）

引用信息

bibtex @article{zhao2025testtimescalingreasoningmodels, title={Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet}, author={James Xu Zhao and Bryan Hooi and See-Kiong Ng}, year={2025}, eprint={2509.06861}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2509.06861}, }

搜集汇总

数据集介绍

构建方式

在知识密集型任务评估领域，Test-time scaling reasoning models evaluation data的构建采用了系统化采样策略。该数据集从SimpleQA基准随机抽取800个简短事实性问题，同时从FRAMES基准选取824个复杂事实寻求问题，形成双维度评估框架。研究人员通过记录12种推理模型在不同思维层级下的输出响应、推理轨迹及评估标签，并辅以词元计数等元数据，构建出多层次模型性能分析体系。

特点

该数据集显著特征体现在其多模态评估维度设计。不仅涵盖简单到复杂的知识问题谱系，更完整捕获了各类推理模型的思维过程轨迹。每个数据样本包含模型响应文本、推理链逻辑记录以及精确的三分类评估标签，为分析模型在知识密集型任务中的认知偏差提供了丰富素材。其双基准对照结构使研究者能横向比较模型在不同难度任务中的表现规律。

使用方法

研究者可通过解析模型输出文件开展多角度实证分析。数据集支持对推理准确率与思维深度关联性的量化研究，token计数元数据可用于计算效率分析。建议采用对比实验设计方法，将同一模型在不同思维层级下的表现进行纵向比较，或跨模型在相同问题上的推理路径进行横向分析。数据集的二分法基准结构特别适合作为验证推理模型泛化能力的测试床。

背景与挑战

背景概述

随着人工智能在知识密集型任务中的深入应用，推理模型的有效性评估成为研究焦点。2025年，新加坡国立大学的James Xu Zhao、Bryan Hooi和See-Kiong Ng团队发布了Test-time scaling reasoning models evaluation数据集，旨在系统评估不同思维层级下12种推理模型在知识密集型基准上的表现。该数据集基于SimpleQA和FRAMES两个基准构建，涵盖简单事实查询与复杂事实推理问题，为核心研究问题——测试时扩展策略在知识密集型任务中的有效性提供了实证基础，对推动推理模型优化与评估方法论发展具有重要影响力。

当前挑战

该数据集致力于解决知识密集型任务中推理模型的泛化性与鲁棒性挑战，特别是测试时扩展策略在复杂知识推理中的局限性问题。构建过程中面临多重挑战：需协调多模型在不同思维层级下的输出一致性，确保评估标签的准确性与可比性；同时处理FRAMES基准中复杂问题的语义深度与逻辑关联性，要求精细的元数据标注（如词元计数与推理轨迹记录），以支持后续分析。

常用场景

经典使用场景

在知识密集型任务的研究领域中，该数据集被广泛用于评估推理模型在不同思维层级下的性能表现。研究者通过分析模型在SimpleQA和FRAMES两个基准上的输出结果，系统检验模型处理简单事实查询与复杂事实推理的能力差异，为模型优化提供实证依据。

实际应用

实际应用中，该数据集为人工智能系统开发提供了重要的性能基准参考。企业研发团队可依据其评估结果选择适合的推理模型架构，特别是在需要高精度知识处理的场景如智能客服、专业问答系统中，显著提升了系统部署的可靠性与效率。

衍生相关工作

该数据集已催生多项关于推理模型优化的创新研究，包括基于思维链的推理增强方法、多层级知识集成框架等。这些工作进一步拓展了知识表示与推理技术的研究边界，为构建更高效的人工智能推理系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集