PROCESSBENCH
收藏arXiv2024-12-09 更新2024-12-11 收录
下载链接:
https://github.com/QwenLM/ProcessBench
下载链接
链接失效反馈官方服务:
资源简介:
PROCESSBENCH是由阿里巴巴集团Qwen团队创建的一个用于评估数学推理过程中错误识别能力的数据集。该数据集包含3400个测试案例,主要涵盖竞赛和奥林匹克级别的数学问题。每个测试案例包含一个逐步解决方案,并由人类专家标注错误位置。数据集的创建过程包括从多个公开数据集中收集问题,使用多种开源语言模型生成解决方案,并通过专家注释确保数据质量。PROCESSBENCH旨在解决语言模型在复杂数学问题中自动识别错误步骤的需求,推动推理过程评估的研究。
PROCESSBENCH is a dataset developed by the Qwen Team of Alibaba Group for evaluating the capability of identifying errors in mathematical reasoning processes. It contains 3400 test cases, primarily covering competition-level and Olympiad-level mathematical problems. Each test case includes a step-by-step solution, with error positions annotated by human experts. The dataset creation workflow involves collecting problems from multiple public datasets, generating solutions using multiple open-source language models, and ensuring data quality via expert annotations. PROCESSBENCH aims to address the demand for automatically detecting erroneous steps in complex mathematical problems by language models, and to advance research on reasoning process evaluation.
提供机构:
阿里巴巴集团
创建时间:
2024-12-09
原始信息汇总
ProcessBench 数据集概述
数据集简介
ProcessBench 是一个用于识别数学推理过程中错误的基准数据集。该数据集与论文 "ProcessBench: Identifying Process Errors in Mathematical Reasoning" 相关联。
数据集发布
- [12/10/2024] 数据集在 arXiv 上发布,并可在 dataset 目录中获取。
引用信息
如果该数据集对您的工作有帮助,请引用以下信息:
@article{processbench, title={ProcessBench: Identifying Process Errors in Mathematical Reasoning}, author={Chujie Zheng and Zhenru Zhang and Beichen Zhang and Runji Lin and Keming Lu and Bowen Yu and Dayiheng Liu and Jingren Zhou and Junyang Lin}, journal={arXiv preprint arXiv:2412.06559}, year={2024} }
搜集汇总
数据集介绍

构建方式
PROCESSBENCH数据集的构建基于竞赛和奥林匹克级别的数学问题,涵盖了3400个测试案例。每个测试案例包含一个逐步解决方案,并由人类专家标注错误位置。数据集的构建过程包括从多个公开数据集中收集数学问题,使用多种开源语言模型生成解决方案,并通过专家注释确保错误位置的准确性。此外,数据集还通过标准化步骤粒度来确保注释的一致性,从而提高数据集的质量和可靠性。
特点
PROCESSBENCH数据集的主要特点包括高难度和多样化的数学问题,涵盖了从基础到竞赛级别的广泛范围。数据集的解决方案由多种语言模型生成,确保了解决方案风格的多样性。此外,数据集的规模较大,包含3400个测试案例,且所有解决方案都经过多个人类专家的注释,确保了数据的高质量和可靠性。
使用方法
PROCESSBENCH数据集主要用于评估模型在数学推理过程中识别错误步骤的能力。模型需要识别出解决方案中最早出现的错误步骤,或者判断所有步骤都是正确的。数据集支持两种类型的模型评估:过程奖励模型(PRMs)和批评模型。PRMs通过预测每个推理步骤的正确性来进行评估,而批评模型则通过提示工程来评估模型对解决方案的批判能力。
背景与挑战
背景概述
PROCESSBENCH数据集由阿里巴巴Qwen团队于2024年推出,旨在评估语言模型在数学推理过程中识别错误步骤的能力。该数据集包含了3400个测试案例,主要涵盖竞赛和奥林匹克级别的数学问题。每个测试案例都包含一个逐步解决方案,并由人类专家标注错误位置。PROCESSBENCH的推出填补了现有基准在评估语言模型错误识别能力方面的不足,尤其是针对复杂数学问题的错误识别。该数据集的构建不仅推动了语言模型在数学推理中的应用,还为未来研究提供了重要的评估工具。
当前挑战
PROCESSBENCH数据集面临的挑战主要集中在两个方面。首先,构建过程中需要处理高难度的数学问题,这些问题不仅对语言模型提出了极高的要求,也对人类专家的标注准确性构成了挑战。其次,现有的过程奖励模型(PRMs)在处理更复杂的数学问题时表现不佳,难以泛化到超出GSM8K和MATH数据集的更难问题。此外,数据集的构建还需要确保解决方案的多样性和标注的准确性,这对数据集的规模和质量提出了更高的要求。
常用场景
经典使用场景
PROCESSBENCH 数据集的经典使用场景在于评估语言模型在数学推理过程中识别错误步骤的能力。该数据集包含了 3,400 个测试案例,主要涵盖竞赛和奥林匹克级别的数学问题。每个测试案例都包含一个逐步解决方案,并由人类专家标注错误位置。模型需要识别出最早出现错误的步骤,或者判断所有步骤均正确。
解决学术问题
PROCESSBENCH 数据集解决了当前语言模型在复杂数学问题推理过程中难以自动识别错误步骤的学术问题。通过提供详细的错误标注和多样化的数学问题,该数据集为研究者提供了一个标准化的评估平台,帮助模型在推理过程中进行自我监督和改进。这不仅提升了模型的推理能力,还为未来语言模型的可扩展监督奠定了基础。
衍生相关工作
PROCESSBENCH 数据集的发布激发了大量相关研究工作,特别是在过程奖励模型(PRMs)和批评模型(Critic Models)的开发与评估方面。许多研究者基于该数据集进行了模型微调和性能优化,推动了语言模型在数学推理中的应用。此外,PROCESSBENCH 还为其他领域的推理过程评估提供了参考,促进了跨学科的研究合作。
以上内容由遇见数据集搜集并总结生成



