inverse-scaling-ttc-main

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/inverse-scaling-ttc/inverse-scaling-ttc-main

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集名为“推理时计算逆缩放”，旨在评估大型推理模型在不同推理长度下的表现。它包含了简单计数任务、回归任务、推理任务以及与高级AI风险相关的任务，并揭示了在推理长度增加时模型性能可能下降的现象。

创建时间：

2025-07-19

原始信息汇总

数据集概述：Inverse Scaling in Test-Time Compute

基本信息

语言：英语 (en)
许可证：MIT
数据规模：1K<n<10K
任务类别：问答 (question-answering)、文本生成 (text-generation)
标签：safety、reasoning、large-language-models、evaluation、benchmark

数据集配置

数据集包含以下配置：

bbeh_zebra_puzzles：测试集路径 bbeh_zebra_puzzles.jsonl
grades_regression：测试集路径 student_lifestyle_regression_Grades.jsonl
misleading_alignment：测试集路径 synthetic-misleading-alignment-5-distractors.jsonl
misleading_cognitive_biases：测试集路径 synthetic-misleading-cognitive-biases-5-distractors.jsonl
misleading_math：测试集路径 synthetic-misleading-math-5-distractors.jsonl
misleading_philosophy：测试集路径 synthetic-misleading-philosophy-5-distractors.jsonl
misleading_python：测试集路径 synthetic-misleading-python-code-5-distractors.jsonl
misleading_math_famous_paradoxes：测试集路径 synthetic_misleading_math_famous_paradoxes.jsonl

研究背景

论文标题：Inverse Scaling in Test-Time Compute
论文链接：https://huggingface.co/papers/2507.14417
项目页面：https://safety-research.github.io/inverse-scaling-ttc/

摘要

研究构建了评估任务，其中延长大型推理模型（LRMs）的推理长度会降低性能，表现出测试时间计算与准确性之间的反比关系。评估任务涵盖四个类别：带有干扰项的简单计数任务、带有虚假特征的回归任务、带有约束跟踪的演绎任务以及高级AI风险。研究识别了模型在长时间推理时的五种不同故障模式。

代码仓库

代码仓库链接：https://github.com/safety-research/inverse-scaling-ttc

引用

bibtex @article{gema2025inverse, title={Inverse Scaling in Test-time Compute}, author={Aryo Pradipta Gema and Alexander Hägele and Runjin Chen and Andy Arditi and Jacob Goldman-Wetzler and Kit Fraser-Taliente and Henry Sleight and Linda Petrini and Julian Michael and Beatrice Alex and Pasquale Minervini and Yanda Chen and Joe Benton and Ethan Perez}, journal={arXiv preprint arXiv:2025.14417}, year={2025} }

搜集汇总

数据集介绍

构建方式

在评估大型推理模型性能的研究背景下，该数据集通过精心设计四类任务构建而成，包括含干扰项的简单计数任务、带有伪特征的回归任务、需要约束跟踪的演绎任务以及高级人工智能风险任务。构建过程采用合成生成方法，针对不同任务类型生成具有误导性干扰项的样本，确保任务能够有效检验模型在延长推理长度时的表现退化现象。

特点

该数据集具有显著的逆向缩放特征，专门揭示大型语言模型在增加测试时计算量时出现的性能下降现象。其核心特点在于覆盖多重失败模式，包括模型对无关信息的过度关注、对问题框架的过拟合倾向、从合理先验转向伪相关性的推理偏移，以及在复杂演绎任务中维持注意力的困难。数据集通过结构化配置提供八个专项任务，每个任务都配有精确的干扰机制和验证标准。

使用方法

研究人员可通过克隆官方GitHub仓库并配置API密钥来使用该数据集，具体流程包括环境设置、数据下载和验证步骤。实验运行依托专用脚本，用户可选择不同模型配置执行逆向缩放任务评估。数据集支持对多种大型语言模型进行可控的过度推理测试，通过量化模型在扩展推理链时的准确率变化，为研究测试时计算量与模型性能的关系提供标准化评估框架。

背景与挑战

背景概述

逆向缩放测试时计算数据集由Aryo Pradipta Gema等研究人员于2025年构建，旨在探究大型推理模型在延长推理链时出现的性能退化现象。该数据集涵盖简单计数干扰、虚假特征回归、约束追踪推演及高级AI风险四大任务类别，揭示了测试时计算资源增加与模型准确率之间的负相关关系。这一发现对大型语言模型的优化策略提出了重要质疑，推动了推理效率与稳定性研究领域的发展。

当前挑战

该数据集核心挑战在于识别测试时计算扩展引发的五大失效模式：模型对干扰信息过度敏感、过度拟合问题框架、从合理先验转向虚假关联、复杂推演任务中注意力涣散，以及延长推理可能放大有害行为。构建过程中的挑战包括设计具有渐进干扰项的评估任务、平衡不同领域问题的代表性，以及确保误导性样本既能触发模型失效又保持逻辑合理性。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集被广泛应用于测试时间计算扩展对推理性能的影响机制研究。研究者通过控制模型在不同推理步长下的表现，系统分析其面对干扰信息时的稳定性，特别是在包含误导性选项的数学推理、哲学思辨和编程问题等场景中，模型需要展现抗干扰能力与逻辑一致性。

实际应用

在实际应用层面，该数据集为AI安全评估提供了重要工具，特别是在检测大型语言模型在复杂决策环境中的可靠性。它能够帮助开发人员识别模型在延长推理过程中可能强化的错误模式，为构建更稳健的AI系统提供验证基准，尤其在需要高可信度的医疗诊断、金融分析和法律咨询等垂直领域具有应用价值。

衍生相关工作

该数据集催生了多项关于测试时间计算优化的创新研究，包括开发新型推理终止机制、注意力调控算法以及抗干扰训练范式。相关经典工作聚焦于构建动态计算分配策略，通过实时监测模型置信度变化来避免无效计算扩展，这些研究显著推进了高效推理与模型安全性协同发展的理论框架构建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集