SWAP_v2

Hugging Face2025-11-10 更新2025-11-10 收录

下载链接：

https://huggingface.co/datasets/sxiong/SWAP_v2

下载链接

链接失效反馈

官方服务：

资源简介：

SWAP_v2是一个用于多步推理过程监督的合成数据集，它是通过在gsm8k、MATH、FOLIO、ReClor、HumanEval和MBPP等多个基准上使用DeepSeek-V3.2生成的，并自动通过树搜索和语义等价性比较获得过程监督。该数据集用于在ACL 2025上发表的一篇论文。

创建时间：

2025-11-08

原始信息汇总

SWAP_v2 数据集概述

基本信息

数据集名称: SWAP_v2
许可证: MIT
任务类别: 问答
语言: 英语
标签: 数学、逻辑、代码

数据集配置

gsm8k_trajectory: 训练集路径 trajectory/gsm8k/train*
MATH_trajectory: 训练集路径 trajectory/MATH/train*
gsm8k_stepwise_preference: 训练集路径 stepwise_preference/gsm8k/train*

数据集描述

SWAP_v2 是一个用于多步推理过程监督的合成数据集，基于论文《Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model》构建。

数据生成

使用 DeepSeek-V3.2 在多个基准数据集上生成轨迹：
- gsm8k
- MATH
- FOLIO
- ReClor
- HumanEval
- MBPP
基于树搜索和语义等价比较自动获取过程监督

引用格式

bibtex @inproceedings{xiong-etal-2025-deliberate, title = "Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model", author = "Xiong, Siheng and Payani, Ali and Yang, Yuan and Fekri, Faramarz", booktitle = "Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.acl-long.1540/", doi = "10.18653/v1/2025.acl-long.1540", pages = "31900--31931", ISBN = "979-8-89176-251-0" }

搜集汇总

数据集介绍

构建方式

在数学推理与逻辑编程领域，SWAP_v2数据集通过深度合成方法构建而成。该数据集基于DeepSeek-V3.2模型在GSM8K、MATH等七个权威基准上生成多步推理轨迹，并运用树搜索与语义等价比较技术自动获取过程监督信号，形成具有精确世界模型的结构化规划数据。

特点

作为过程监督的多步推理数据集，SWAP_v2融合了数学推导与程序代码的双重特性。其核心价值在于包含完整的推理轨迹与逐步偏好标注，通过语义等价性验证确保逻辑链条的严密性，为语言模型的结构化推理能力研究提供了高精度实验材料。

使用方法

研究者可通过HuggingFace Datasets库直接加载该数据集的不同配置版本。以gsm8k_trajectory配置为例，使用标准数据加载接口即可获取训练分割，其树状推理轨迹与步骤级监督标签为研究语言模型的规划能力提供了标准化实验框架。

背景与挑战

背景概述

随着人工智能在复杂推理任务中的深入应用，多步推理过程监督成为提升语言模型逻辑能力的关键路径。SWAP_v2数据集由佐治亚理工学院研究团队于2025年构建，其核心目标在于通过结构化规划与精确世界模型增强语言模型的审慎推理能力。该数据集基于DeepSeek-V3.2模型在数学推理（GSM8K、MATH）、逻辑推理（FOLIO、ReClor）及代码生成（HumanEval、MBPP）等七大基准上生成推理轨迹，通过树搜索与语义等价比对实现自动化过程监督，为可解释人工智能研究提供了重要数据支撑。

当前挑战

在数学与逻辑推理领域，模型需克服多步推理中的错误累积与语义一致性难题，SWAP_v2通过过程监督机制应对推理链的可靠性验证挑战。构建过程中面临双重考验：一方面需确保自动生成的推理轨迹在数学严谨性与逻辑连贯性上达到监督标准，另一方面要解决跨领域数据（从数学问题到程序代码）在语义等价性判定中的维度对齐问题，这对监督信号的精确度与泛化能力提出了极高要求。

常用场景

经典使用场景

在数学推理与逻辑编程领域，SWAP_v2数据集通过整合GSM8K和MATH等权威数学问题库，为多步推理任务提供了结构化轨迹数据。其核心应用在于训练语言模型进行逐步推导，利用树搜索和语义等价比较生成的过程监督信号，显著提升模型在复杂算术和代数问题中的分步解决能力。该数据集通过模拟人类解题的思维链条，为模型规划能力的研究奠定了数据基础。

解决学术问题

该数据集致力于解决大语言模型在逻辑推理中的幻觉问题与连贯性缺失难题。通过提供精确的世界模型监督，它使模型能够验证每一步推导的合理性，从而降低错误传播风险。在形式逻辑与代码生成任务中，这种过程监督机制为研究可解释推理提供了新范式，推动了神经符号计算领域的发展。

衍生相关工作

基于该数据集衍生的经典研究包括《Deliberate Reasoning in Language Models》提出的结构感知规划框架，该工作将强化学习与符号推理相结合。后续研究进一步扩展了过程监督在定理证明和科学计算中的应用，催生了如神经定理证明器、程序合成系统等创新成果，持续推动着可信人工智能的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集