DeltaBench

github2025-03-04 更新2025-02-28 收录

下载链接：

https://github.com/OpenStellarTeam/DeltaBench

下载链接

链接失效反馈

官方服务：

资源简介：

DeltaBench是一个用于分析o1-like模型生成的长CoTs质量和评估现有批评模型的错误检测能力的数据集，包含数学、编程、物理化学生物学和通用推理领域的1236个样本。

DeltaBench is a dataset designed to analyze the quality of long Chain-of-Thoughts (CoTs) generated by o1-like models and evaluate the error detection capabilities of existing critic models, which contains 1,236 samples across the domains of mathematics, programming, physics, chemistry, biology, and general reasoning.

创建时间：

2025-02-15

原始信息汇总

DeltaBench 数据集概述

数据集简介

名称: DeltaBench
目的: 分析由o1类模型生成的长链思维(CoT)的质量，并评估现有批评模型和PRMs在长链思维推理中检测错误的能力。
样本数量: 1,236个
领域覆盖: 数学(Math)、编程(Programming)、PCB(物理、化学和生物)以及通用推理(General Reasoning)

核心特点

数据构成:
- 每个样本包含一个问题、对应的长链思维解决方案以及全面的人工标注
- 长链思维解决方案被划分为多个独立子任务部分
标注维度:
- 策略转换(Strategy Shift): 标注是否引入新方法或策略尝试
- 推理有用性(Reasoning Usefulness): 标注该部分推理是否有用
- 推理正确性(Reasoning Correctness): 标注是否包含错误及错误相关字段(首次错误步骤、解释和修正)
- 反思效率(Reflection Efficiency): 标注是否包含反思及反思是否正确

数据来源

长链思维解决方案来自多种o1类模型(QwQ、DeepSeek-R1和Gemini-2.0 Flash Thinking)

引用格式

bibtex @misc{he2025largelanguagemodelsdetect, title={Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?}, author={Yancheng He and Shilong Li and Jiaheng Liu and Weixun Wang and Xingyuan Bu and Ge Zhang and Zhongyuan Peng and Zhaoxiang Zhang and Zhicheng Zheng and Wenbo Su and Bo Zheng}, year={2025}, eprint={2502.19361}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.19361}, }

搜集汇总

数据集介绍

构建方式

DeltaBench数据集的构建采取了收集由不同o1-like模型生成的多样化长Chain-of-Thoughts (CoTs)的策略，这些CoTs涵盖了数学、编程、物理化学与生物以及一般推理等多个领域。每个样本由一个问题、相应的长CoT解答以及全面的人类注释组成。数据集的构建过程还包括将每个长CoT划分成不同部分，每部分代表一个独立子任务，并对各部分进行详细标注，包括策略转变、推理有用性、推理正确性以及反思效率等方面。

特点

DeltaBench数据集的特点在于它是首个专门用于分析o1-like模型生成长CoTs的质量，并评估现有批评模型和PRMs对长CoT推理错误检测能力的基准。该数据集样本丰富，多样性强，覆盖多个领域，并且提供了详尽的人类注释，这些注释有助于研究者深入理解模型在复杂推理任务中的表现及其错误类型。

使用方法

使用DeltaBench数据集，首先需要在scripts/chinese_simpleqa_easy.py中设置openai的key。随后，运行eval脚本以对模型进行评估。此外，数据集还提供了一个统一的处理脚本，用于多个模型结果的整合，最终生成完整的排行榜。使用该数据集的研究者在发表论文时，应引用相关的论文以示认可。

背景与挑战

背景概述

DeltaBench数据集的构建，标志着在长链式推理（long CoT）分析领域的重大进展。该数据集由OpenStellarTeam团队于2025年开发，旨在评估o1-like模型生成长的CoT的质量，并评价现有批判模型及PRMs对长CoT推理中错误检测的能力。DeltaBench数据集包含1,236个样本，覆盖数学、编程、物理化学与生物以及通用推理等多个领域，每个样本包含一个问题、相应的长CoT解答以及全面的人类注释。

当前挑战

在构建DeltaBench数据集的过程中，研究者面临了多个挑战。首先，如何准确捕捉并划分长CoT中的不同子任务，以确保对每个子任务的评估具有针对性和准确性，是一大挑战。其次，为长CoT中的各个部分制定有效的标注策略，包括策略转换、推理有用性、推理正确性和反思效率等标注维度，需要细致且全面的工作。此外，该数据集在推动对长推理链错误检测能力的研究方面提出了新的领域问题，即如何有效训练和评估模型对长CoT中潜在错误的识别与纠正能力。

常用场景

经典使用场景

DeltaBench数据集作为首个分析o1-like模型生成之长链式推理（CoT）质量及评估现有评判模型对长CoT推理错误检测能力的工具，其经典使用场景在于对模型在数学、编程、物理化学生物以及通用推理任务中的长CoT解决方案进行质量评估和错误检测。该数据集通过细致的人类标注，为研究者提供了深入分析模型性能的基准。

解决学术问题

DeltaBench解决了学术研究中对于长链式推理错误检测缺乏统一标准及有效评估手段的问题。其提供了丰富的标注信息，包括策略转变、推理有用性、推理正确性以及反思效率等维度，使得研究者能够更全面地理解和评价模型在复杂推理任务中的表现，进而推动相关算法的改进与发展。

衍生相关工作

基于DeltaBench数据集，研究者们已经开展了一系列相关工作，如错误检测算法的开发、长CoT生成模型的改进、评估指标的优化等。这些工作不仅推动了人工智能领域中对长链式推理技术的深入研究，也为教育、科研等领域提供了新的研究方向和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集