xinlai/Math-Step-DPO-10K

Name: xinlai/Math-Step-DPO-10K
Creator: xinlai
Published: 2024-07-04 04:04:10
License: 暂无描述

Hugging Face2024-07-04 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/xinlai/Math-Step-DPO-10K

下载链接

链接失效反馈

官方服务：

资源简介：

Math-Step-DPO-10K是一个高质量的逐步偏好数据集，用于数学推理。该数据集是Step-DPO项目的一部分，Step-DPO是一种简单、有效且数据高效的方法，用于提升大语言模型的数学推理能力。该数据集包含多个字段，如数据集名称、提示、初始推理步骤、选择、拒绝、完整选择、完整拒绝和答案等。数据集的应用效果显著，例如在Qwen2-72B-Instruct模型上，Step-DPO在MATH和GSM8K测试集上分别取得了70.8%和94.0%的分数，超过了包括GPT-4-1106、Claude-3-Opus和Gemini-1.5-Pro在内的一系列闭源模型。

Math-Step-DPO-10K is a high-quality step-by-step preference dataset for mathematical reasoning. It is part of the Step-DPO project, which is a simple, effective and data-efficient approach to enhancing the mathematical reasoning capabilities of large language models (LLMs). The dataset contains multiple fields such as dataset name, prompt, initial reasoning steps, chosen, rejected, full chosen, full rejected and answer. It has achieved notable application effects: for example, on the Qwen2-72B-Instruct model, Step-DPO achieved scores of 70.8% and 94.0% on the MATH and GSM8K test sets respectively, outperforming a series of closed-source models including GPT-4-1106, Claude-3-Opus and Gemini-1.5-Pro.

提供机构：

xinlai

原始信息汇总

Math-Step-DPO-10K 数据集概述

数据集信息

语言: 英语
特征:
- dataset: 字符串类型
- prompt: 字符串类型
- initial_reason_steps: 字符串类型
- chosen: 字符串类型
- rejected: 字符串类型
- full_chosen: 字符串类型
- full_rejected: 字符串类型
- answer: 字符串类型
分割:
- train: 包含 10795 个样本，占用 26528471 字节
下载大小: 11985248 字节
数据集大小: 26528471 字节

配置

配置名称: default
数据文件:
- train: 路径为 data/train-*

在数学推理领域，高质量数据集的构建对于提升大语言模型的逻辑推演能力至关重要。Math-Step-DPO-10K数据集通过精心设计的步骤级偏好优化方法构建而成，其核心流程涉及从多个数学推理数据源中提取问题与初始推理步骤，随后利用先进的大语言模型生成成对的解答序列。这些序列经过严格的人工或自动化评估，区分出被采纳的优化解答与被拒绝的次优解答，最终形成结构化的偏好对比数据，为模型训练提供了明确的优化方向。

特点

该数据集在数学推理任务中展现出鲜明的特色，其核心在于提供了详尽的步骤级偏好标注。每个数据样本不仅包含原始问题与标准答案，更关键的是拥有完整的推理步骤序列，以及明确标注的优选解答与次优解答对比。这种细粒度的结构使得数据集能够精准引导模型学习推理过程中的关键决策点，而非仅仅关注最终结果，从而有效应对数学问题中常见的多步骤、长链条推理挑战，提升了训练的针对性与效率。

使用方法

在模型训练的应用层面，本数据集专为步骤级直接偏好优化（Step-DPO）方法设计。使用者可直接加载数据集，利用其中的‘prompt’、‘chosen’和‘rejected’等关键字段，构建用于偏好对齐训练的损失函数。具体而言，模型被训练以区分并生成更接近‘chosen’解答的推理路径，同时远离‘rejected’路径。这种使用方法能够显著增强模型在复杂数学问题上的分步推理能力和逻辑一致性，适用于微调各类预训练大语言模型以提升其数学解题性能。

背景与挑战

背景概述

在大型语言模型（LLM）的推理能力优化领域，数学推理因其复杂的多步逻辑链条而成为关键挑战。Math-Step-DPO-10K数据集由香港中文大学的研究团队于2024年创建，旨在通过步骤级偏好优化（Step-DPO）方法提升模型在长链推理任务中的表现。该数据集聚焦于数学问题求解，核心研究问题是如何有效引导模型生成连贯且正确的推理步骤，而非仅关注最终答案。其在MATH和GSM8K等基准测试中取得的显著成果，推动了推理对齐技术的发展，为后续研究提供了高质量的数据基础。

当前挑战

该数据集致力于解决数学推理中模型常出现的逻辑跳跃或错误累积问题，其挑战在于如何精准标注每一步推理的优劣，确保偏好数据能反映严谨的数学逻辑。构建过程中的主要困难包括：从原始数学问题中提取并标准化多步推理链条，需平衡步骤的详细性与整体效率；人工或自动评估需区分细微的逻辑差异，避免引入主观偏差；同时，数据规模与质量的权衡亦是一大考验，既要保证足够的训练样本，又需维持每一步推理的高准确度。

常用场景

经典使用场景

在数学推理领域，大型语言模型常面临长链逻辑推导的挑战。Math-Step-DPO-10K数据集通过提供逐步推理的偏好对比数据，为模型优化提供了经典场景。该数据集广泛应用于指令微调过程中，特别针对多步数学问题的求解，帮助模型学习从初始步骤到最终答案的连贯推理路径，从而提升其在复杂问题上的表现。

解决学术问题

该数据集有效解决了数学推理中模型易产生逻辑断层或错误累积的学术难题。通过引入步骤级别的偏好优化，它促使模型关注推理过程的正确性与连贯性，而非仅仅追求最终答案的匹配。这一方法显著提升了模型在MATH、GSM8K等基准测试上的性能，为长链推理的可靠性研究提供了关键数据支撑。

衍生相关工作

基于该数据集衍生的经典工作包括Step-DPO优化框架，该框架通过步骤对比学习显著提升了模型性能。相关研究进一步探索了多模态数学推理、跨领域逻辑迁移等方向，推动了偏好优化技术在复杂任务中的广泛应用，并为后续的链式推理数据集构建提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

xinlai/Math-Step-DPO-10K

Math-Step-DPO-10K 数据集概述

数据集信息

配置

标签