MathCritique-76k

github2024-11-26 更新2024-11-28 收录

下载链接：

https://github.com/WooooDyy/MathCritique

下载链接

链接失效反馈

官方服务：

资源简介：

MathCritique-76k是一个用于训练和测试大型语言模型（LLMs）的数据集，包含数学推理任务的响应及其步骤级反馈。该数据集通过自动化和可扩展的框架收集，旨在帮助模型生成自然语言反馈，提高数学推理任务的性能。

MathCritique-76k is a dataset for training and testing Large Language Models (LLMs), which contains responses to mathematical reasoning tasks and step-level feedback. Collected through an automated and scalable framework, this dataset aims to help models generate natural language feedback and enhance their performance on mathematical reasoning tasks.

创建时间：

2024-11-26

原始信息汇总

MathCritique 数据集概述

数据集简介

名称: MathCritique-76k
来源: 由AutoMathCritique框架自动收集，包含数学推理任务的响应及其步骤级反馈。
用途: 用于微调语言模型，使其能够生成自然语言的数学推理反馈。
特点:
- 通过两玩家范式，分离推理和批判模型的角色。
- 批判模型在测试时和训练时提供步骤级反馈，监督推理模型。
- 数据集有助于提高推理模型在困难查询上的性能，特别是在扩展推理时间计算时。

数据集结构

原始数据: 基于GSM8k和MATH训练集构建，每个查询包含问题及其对应答案。
新数据: 基于GPT4反馈数据构建，每个查询包含问题、反馈及其对应精炼答案。
数据量: 目前发布100个示例，后续将发布更多数据。

使用方法

安装依赖:
- LLaMA-Factory依赖
- vllm用于推理
- deepspeed用于训练
- 自定义transformers版本
运行实验:
- 使用selfimprove/inference-all.sh脚本进行训练、推理和评估。
- 关键配置参数包括数据集路径、模型名称、采样温度等。

许可证

类型: Apache 2.0 License
链接: Apache2.0 License

联系信息

作者: Zhiheng Xi
邮箱: zhxi22@m.fudan.edu.cn

引用

@misc{xi2024enhancingllmreasoningcritique, title={Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision}, author={Zhiheng Xi and Dingwen Yang and Jixuan Huang and Jiafu Tang and Guanyu Li and Yiwen Ding and Wei He and Boyang Hong and Shihan Do and Wenyu Zhan and Xiao Wang and Rui Zheng and Tao Ji and Xiaowei Shi and Yitao Zhai and Rongxiang Weng and Jingang Wang and Xunliang Cai and Tao Gui and Zuxuan Wu and Qi Zhang and Xipeng Qiu and Xuanjing Huang and Yu-Gang Jiang}, year={2024}, eprint={2411.16579}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.16579}, }

搜集汇总

数据集介绍

构建方式

在构建MathCritique-76k数据集时，研究团队采用了一种创新的自动化框架——AutoMathCritique。该框架通过分离推理模型与批评模型的角色，实现了在测试时和训练时对推理模型的监督。具体而言，批评模型提供步骤级别的反馈，从而生成与数学推理相关的自然语言反馈数据。此数据集的核心构建过程包括使用GSM8k和MATH训练集的原始数据，以及通过GPT-4反馈数据生成的改进数据。每条数据包含一个问题、相应的反馈及其精炼答案，从而形成了一个包含76,000条记录的综合数据集。

使用方法

使用MathCritique-76k数据集进行模型训练和评估时，首先需安装相关依赖，包括LLaMA-Factory、vllm和deepspeed等。核心实验脚本位于selfimprove/inference-all.sh，该脚本涵盖了训练、推理和评估的全过程。用户可以通过调整配置参数，如数据集路径、模型名称、采样温度等，来定制实验。特别地，通过设置USE_CRITIC参数，用户可以选择是否在训练过程中引入批评模型的反馈，从而实现对推理模型的精细化调整。执行脚本后，系统将自动进行数据处理、模型训练和性能评估，为用户提供详尽的实验结果。

背景与挑战

背景概述

MathCritique-76k数据集由Zhiheng Xi等人于2024年创建，旨在通过提供数学推理任务的详细反馈来增强大型语言模型（LLMs）的推理能力。该数据集的核心研究问题是如何通过批判性模型在测试和训练阶段提供监督，以改进LLMs在复杂推理任务中的表现。MathCritique-76k不仅为LLMs的自我反思和自我修正机制提供了数据支持，还展示了在科学、编码和数学等领域中，模型如何通过外部反馈提升其性能。这一研究对推动人工智能在复杂问题解决中的应用具有重要意义。

当前挑战

MathCritique-76k数据集面临的挑战主要集中在两个方面。首先，构建过程中需要处理的问题包括初始准确性、问题难度以及缺乏外部反馈等因素，这些都限制了模型自我评估的能力。其次，数据集的创建需要一个自动化和可扩展的框架，以确保能够高效地收集和处理大量的批判性反馈数据。此外，如何在实际应用中有效地利用这些数据来提升模型的推理能力，也是一个亟待解决的问题。

常用场景

经典使用场景

在自然语言处理领域，MathCritique-76k数据集的经典使用场景主要集中在提升大型语言模型（LLMs）在数学推理任务中的表现。通过该数据集，研究人员可以训练和微调模型，使其在面对复杂数学问题时，能够生成更为准确和详细的推理步骤。这种训练方法不仅增强了模型在数学领域的推理能力，还促进了其在科学和编程等其他复杂任务中的应用。

解决学术问题

MathCritique-76k数据集解决了在训练大型语言模型时，模型自我评估和自我修正能力不足的问题。通过引入批判模型（critique model），该数据集提供了详细的步骤级反馈，使得模型在训练和测试阶段都能得到有效的监督。这不仅提高了模型的推理准确性，还推动了自监督学习和强化学习在复杂任务中的应用研究。

实际应用

在实际应用中，MathCritique-76k数据集被广泛用于教育科技和智能辅导系统中。通过集成该数据集训练的模型，系统能够为学生提供详细的数学问题解答和错误分析，从而提升学习效果。此外，该数据集还在金融分析、科学研究和工程设计等领域中，用于提高自动化决策和问题解决的准确性。

数据集最近研究