Epic50k
收藏arXiv2025-03-04 更新2025-03-06 收录
下载链接:
https://github.com/xiaolizh1/EpicPRM
下载链接
链接失效反馈官方服务:
资源简介:
Epic50k是一个包含50000个标注中间步骤的高质量过程监督训练数据集,由中国科学院自动化研究所的研究人员创建。该数据集通过多个大型语言模型(LLM)生成完整的思维链(CoT),并利用自适应二分搜索算法对每个中间步骤的贡献进行量化标注,从而提高数据标注的精确性和效率。数据集旨在用于数学推理过程中过程监督奖励模型(PRM)的训练,以增强大型语言模型的数学推理能力。
Epic50k is a high-quality process supervision training dataset containing 50,000 annotated intermediate steps, created by researchers from the Institute of Automation, Chinese Academy of Sciences. This dataset generates complete chain-of-thought (CoT) sequences via multiple large language models (LLMs), and uses an adaptive binary search algorithm to quantitatively annotate the contribution of each intermediate step, thereby improving the accuracy and efficiency of data annotation. The dataset is intended for training process reward models (PRM) in mathematical reasoning tasks to enhance the mathematical reasoning capabilities of large language models.
提供机构:
中国科学院自动化研究所
创建时间:
2025-03-04
搜集汇总
数据集介绍

构建方式
Epic50k 数据集的构建采用了 EpicPRM 框架,该框架利用多源大型语言模型(LLM)生成多个完整的 CoT 推理链,并通过量化每个中间推理步骤对问题解决的贡献程度来进行标注。为了提高标注精度和效率,EpicPRM 使用自适应二分查找算法来确定每个推理链中的第一个错误步骤。这种算法根据问题的难度动态调整起始位置和蒙特卡洛估计的样本数量。通过这种方式,Epic50k 数据集包含了 50,000 个经过标注的中间步骤,相比其他公开数据集,使用 Epic50k 训练的 PRM 表现出了显著更优的性能。
特点
Epic50k 数据集的特点在于其高质量和高效的构建方式。该数据集通过量化中间推理步骤的贡献程度和自适应二分查找算法的使用,实现了对中间步骤的精确标注。与手动标注相比,Epic50k 的构建成本降低了 64.39%,并且其训练的 PRM 性能甚至超过了包含 800,000 个手动标注步骤的 PRM800k 数据集。此外,Epic50k 还展示了强大的跨领域泛化能力,在数学推理以外的领域也表现出色。
使用方法
Epic50k 数据集的使用方法主要包括以下几个方面:首先,选择一个数学推理任务,例如数学问题解决。其次,使用 EpicPRM 框架生成多个完整的 CoT 推理链。然后,根据量化贡献程度和自适应二分查找算法对中间步骤进行标注。最后,使用标注后的数据集训练一个过程监督奖励模型(PRM),以提高模型在数学推理任务上的性能。需要注意的是,Epic50k 数据集的使用需要一定的计算资源,因此在使用前需要确保计算环境的配置符合要求。
背景与挑战
背景概述
Epic50k数据集是在2025年由中国科学院自动化研究所、中国科学院大学人工智能学院以及武汉人工智能研究院的研究人员共同创建的。该数据集旨在解决大型语言模型(LLMs)在数学推理能力提升方面的挑战。为了增强LLMs的数学推理能力,研究人员通常采用过程监督奖励模型(PRMs)来指导推理过程。然而,现有的构建过程监督训练数据的方法,如人工标注和每步蒙特卡洛估计,往往成本高昂或质量较差。为了应对这些挑战,该论文提出了一种名为EpicPRM的框架,该框架基于推理步骤的贡献进行标注,并使用自适应二分查找算法来提高标注精度和效率。利用这种方法,研究人员高效地构建了一个名为Epic50k的高质量过程监督训练数据集,包含50k个标注的中间步骤。与现有公开数据集相比,在Epic50k上训练的PRM表现出显著优越的性能。
当前挑战
Epic50k数据集面临的主要挑战包括:1)提高LLMs的数学推理能力,这在人工智能的各个科学领域具有重要意义;2)构建高质量的过程监督训练数据集,这对于PRM的有效性至关重要;3)降低标注成本,现有的人工标注方法成本高昂且难以扩展到不同领域,而自动标注方法虽然降低了成本但往往导致标注质量较低。为了解决这些挑战,EpicPRM框架被提出,它通过量化中间推理步骤的贡献和使用自适应二分查找算法来提高标注精度和效率。此外,Epic50k数据集的规模相对较小,但其性能却优于规模更大的PRM800k和Math-Shepherd数据集,这表明数据质量对于训练PRMs的重要性。
常用场景
经典使用场景
Epic50k数据集主要用于训练和评估数学推理过程中监督奖励模型(PRM)。该数据集包含50k个标注的中间推理步骤,为PRM的训练提供了高质量的数据基础。通过使用Epic50k数据集,研究人员可以有效地训练PRM,从而提高大型语言模型(LLMs)的数学推理能力。
解决学术问题
Epic50k数据集解决了传统数据集构建方法中存在的标注成本高、标注质量差等问题。通过引入EpicPRM框架,该数据集实现了对中间推理步骤的精确标注,并通过自适应二分搜索算法提高了标注效率。此外,Epic50k数据集还解决了LLMs在数学推理任务中存在的推理能力不足的问题,为提高LLMs的数学推理能力提供了有效的方法。
衍生相关工作
Epic50k数据集的发布促进了数学推理领域的研究进展。基于Epic50k数据集,研究人员可以进一步研究PRM的训练方法、评估指标等,以提高LLMs的数学推理能力。此外,Epic50k数据集还为其他相关研究提供了参考和借鉴,如自动化数据标注、自适应搜索算法等。
以上内容由遇见数据集搜集并总结生成



