DPO_Dataset

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/DiffLean/DPO_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DPO_Dataset 是一个用于形式化推理和 Lean 证明生成实验的偏好数据集。该数据集包含数学问题的自然语言描述、相关的 Lean 定理声明，以及优选和次选的自然语言推理轨迹和形式化证明对。数据集结构包括 128,595 个训练样本，每个样本包含 8 个字段：问题描述、来源、形式化声明、问题类型、优选形式化证明、优选推理、次选形式化证明和次选推理。数据来源包括 dart-math-hard、synthetic、openr1 和 deepscaler 四个子集。该数据集适用于偏好建模、奖励建模或基于 DPO 风格的数学推理和形式化证明生成任务训练。需要注意的是，数据集中的样本可能包含噪声、格式问题或不完美的偏好标签，优选响应不应被视为绝对正确，次选响应也未必普遍错误。在使用该数据集时，特别是在高风险的场景中，应验证下游输出的正确性。

创建时间：

2026-04-13

原始信息汇总

DPO_Dataset 数据集概述

数据集描述

本数据集为用于形式化推理与Lean证明生成的合并DiffLean DPO偏好数据集。每个训练行包含一个问题陈述、其对应的Lean定理陈述，以及一组被选中的和被拒绝的自然语言推理轨迹与形式化证明对。

数据集结构

数据拆分：训练集 (train)
样本数量：128,595 行
特征数量：8 列

数据字段

Question：自然语言数学问题陈述，包含最终答案文本。
Source：示例的数据集/来源标识符。
Formal Statement：与问题关联的Lean定理陈述。
Problem Type：从源数据集中继承的问题类别标签。
Chosen Formal Proof：针对该陈述的首选Lean证明/程序。
Chosen Reasoning：与首选证明配对的优选自然语言推理。
Rejected Formal Proof：针对同一陈述的被拒绝的Lean证明/程序。
Rejected Reasoning：与被拒绝证明配对的被拒绝的自然语言推理。

数据来源构成

dart-math-hard：61,113 个样本
synthetic：54,107 个样本
openr1：8,755 个样本
deepscaler：4,620 个样本

数据集来源

此上传合并了以下本地文件：

dpo_dataset/paired_pass_fail_dataset.json
dpo_dataset/formal_proof_verified_paired_pass_fail_dataset.json

预期用途

本数据集旨在用于数学推理和形式化证明生成任务中的偏好建模、奖励建模或DPO风格训练。

局限性

示例来自生成和过滤的流程聚合，可能仍包含噪声、格式问题或不完美的偏好标签。被选中的响应不应被视为绝对正确的标准答案，被拒绝的响应也并非普遍错误。

伦理考量

本数据集包含模型生成的数学推理和形式化证明。在高风险场景（尤其是正确性至关重要的场景）中使用下游输出前，请务必进行验证。

搜集汇总

数据集介绍

构建方式

在形式化推理与数学证明生成领域，DPO_Dataset的构建采用了严谨的数据整合与筛选流程。该数据集融合了来自多个数学推理源的数据，包括dart-math-hard、synthetic、openr1与deepscaler等，通过合并本地文件如paired_pass_fail_dataset.json与formal_proof_verified_paired_pass_fail_dataset.json，形成了包含128,595条训练样本的结构化集合。每条样本均包含自然语言问题陈述、对应的Lean形式化语句，以及经过偏好标注的推理与证明对，确保了数据在形式逻辑与自然语言层面的双重对齐。

特点

DPO_Dataset的核心特点体现在其多模态与偏好驱动的设计上。数据集不仅提供了数学问题的自然语言描述与形式化Lean语句，还精心标注了优选与拒绝的推理路径及形式证明，形成了完整的对比学习框架。这种结构支持对数学推理过程中逻辑严谨性与语言表达质量的细粒度评估，尤其适用于偏好建模与直接偏好优化等任务。数据来源的多样性进一步增强了其在复杂数学问题上的泛化能力，为形式推理研究提供了丰富的实验素材。

使用方法

该数据集主要应用于数学推理与形式证明生成的偏好学习任务。研究人员可利用其中的优选与拒绝样本对，训练奖励模型或实施直接偏好优化，以提升模型在生成严谨数学证明时的准确性与逻辑一致性。使用时应结合Lean定理证明器等工具验证形式化语句的正确性，并注意数据中可能存在的噪声与标注偏差。在涉及高可靠性要求的场景中，建议对下游输出进行额外验证，以确保推理结果的可靠性。

背景与挑战

背景概述

在形式化推理与数学定理自动证明领域，如何有效对齐大型语言模型的输出偏好与严谨的逻辑正确性，一直是前沿研究的核心议题。DPO_Dataset由研究团队于近期构建，专注于为直接偏好优化（DPO）方法提供高质量的训练数据，其核心研究问题在于提升模型在生成形式化证明（如Lean语言）与自然语言推理过程中的准确性与可靠性。该数据集融合了多个数学问题来源，旨在推动人工智能在复杂数学推理任务中的泛化能力与可验证性，对自动定理证明与可解释人工智能领域具有显著的促进作用。

当前挑战

该数据集致力于解决形式化数学推理与自动证明生成中的偏好对齐挑战，即如何区分高质量证明与存在缺陷的推理过程，确保模型学习到正确的逻辑结构。在构建过程中，面临的主要挑战包括：整合来自不同源头（如dart-math-hard、synthetic等）的数据时，需处理格式异构性与噪声问题；标注偏好对（chosen/rejected）时，可能引入主观偏差或标签不完美性，影响训练稳定性；同时，形式化语句与自然语言推理的严格对应关系难以完全保证，需持续优化数据清洗与验证流程。

常用场景

经典使用场景

在形式化推理与数学证明生成领域，DPO_Dataset为研究者提供了一个结构化的偏好学习基准。该数据集通过整合自然语言问题、Lean形式化陈述及成对的偏好证明与推理轨迹，典型地应用于直接偏好优化（DPO）训练流程。它支持模型在数学推理任务中学习区分高质量与低质量的证明路径，从而优化生成过程的可靠性与逻辑严谨性，成为形式化验证与自动定理证明方向的核心实验平台。

衍生相关工作

围绕DPO_Dataset，已衍生出一系列聚焦形式化推理与偏好学习的经典研究工作。这些工作通常探索如何利用偏好数据优化大型语言模型在数学证明生成中的性能，例如改进的DPO变体训练策略或结合强化学习的证明搜索算法。相关研究进一步扩展了数据集在跨领域形式化任务中的应用，促进了自动推理与可验证人工智能方向的算法创新与理论进展。

数据集最近研究