PRMBENCH|模型评估数据集|复杂推理数据集

arXiv2025-01-07 更新2025-01-08 收录

模型评估

复杂推理

下载链接：

https://prmbench.github.io

下载链接

链接失效反馈

资源简介：

PRMBENCH是由复旦大学、苏州大学、上海人工智能实验室等机构联合开发的一个细粒度基准测试数据集，旨在评估过程级奖励模型（PRMs）在复杂推理任务中的表现。该数据集包含6216个问题实例和83456个步骤级标签，涵盖了简洁性、合理性和敏感性等多个评估维度。数据集的创建过程结合了人工和自动生成的方法，确保了数据的多样性和质量。PRMBENCH的应用领域主要集中在复杂推理任务的模型评估，旨在解决现有基准测试在评估PRMs时无法全面覆盖错误类型和场景的问题，为未来研究提供了重要的参考和指导。

提供机构：

复旦大学, 苏州大学, 上海人工智能实验室, 石溪大学, 香港中文大学

创建时间：

2025-01-07

AI搜集汇总

数据集介绍

构建方式

PRMBENCH数据集的构建过程结合了人工标注与自动生成技术。首先，研究人员从PRM800K数据集中提取了完全正确的多步推理问题及其解答步骤，作为基础数据。随后，利用先进的生成式语言模型（如GPT-4o）对这些解答步骤进行修改，引入不同类型的错误，例如冗余步骤、循环逻辑、反事实推理等。这些修改后的数据经过人工审核，确保其合理性和多样性。最终，数据集包含6,216个问题实例和83,456个步骤级别的标签，覆盖了多个细粒度的错误类型。

使用方法

PRMBENCH数据集的使用方法主要包括模型评估和错误分析。研究人员可以通过该数据集对过程级奖励模型（PRMs）进行多维度评估，包括步骤正确性、冗余检测、错误类型识别等。具体使用时，模型需要对每个推理步骤进行评分，判断其正确性和冗余程度。此外，PRMBENCH还提供了详细的错误分析工具，帮助研究人员识别模型在推理过程中的常见错误类型，并指导未来的模型改进方向。

背景与挑战

背景概述

PRMBENCH是由Mingyang Song等人于2025年提出的一个细粒度且具有挑战性的基准数据集，旨在评估过程级奖励模型（PRMs）在复杂推理任务中的表现。该数据集由复旦大学、苏州大学、上海人工智能实验室、石溪大学和香港中文大学的研究团队共同开发，包含6,216个精心设计的问题和83,456个步骤级标签，涵盖了简洁性、合理性和敏感性等多个维度。PRMBENCH的创建填补了现有基准在评估PRMs时仅关注步骤正确性的不足，提供了对推理过程中隐含错误的系统性评估。该数据集对推动PRMs的研究和发展具有重要意义，尤其是在多步推理和错误检测能力的提升方面。

当前挑战

PRMBENCH面临的挑战主要体现在两个方面。首先，现有的PRMs在检测推理过程中的隐含错误时表现不佳，尤其是在处理冗余、循环逻辑和领域不一致等复杂错误类型时，模型的性能远低于随机猜测。其次，数据集的构建过程中也面临诸多挑战，包括如何确保生成的错误类型具有多样性和真实性，以及如何通过人工和自动化的结合来保证数据的高质量。此外，PRMBENCH还要求模型在多个维度上进行评估，如简洁性、合理性和敏感性，这进一步增加了模型评估的复杂性。这些挑战不仅揭示了当前PRMs的局限性，也为未来的研究指明了方向。

常用场景

经典使用场景

PRMBENCH数据集主要用于评估过程级奖励模型（PRMs）在复杂推理任务中的表现，特别是在多步推理过程中检测各种隐含错误的能力。该数据集通过精心设计的6,216个问题和83,456个步骤级标签，系统地评估模型在简洁性、合理性和敏感性等多个维度上的表现。经典的使用场景包括对开源和闭源大语言模型进行过程级推理的评估，帮助研究人员识别模型在推理过程中的弱点。

解决学术问题

PRMBENCH解决了当前基准测试在评估过程级奖励模型时的不足，特别是现有基准测试主要关注步骤的正确性，而忽略了推理过程中多样化的错误类型。通过引入细粒度的错误检测能力评估，PRMBENCH能够揭示模型在推理过程中的潜在弱点，并为未来的研究提供关键方向。该数据集的意义在于推动了过程级推理评估的研究，并为开发更可靠和鲁棒的PRMs提供了坚实的基础。

实际应用

PRMBENCH的实际应用场景包括但不限于数学推理、代码生成等复杂任务的自动化评估。通过该数据集，研究人员可以评估模型在多步推理任务中的表现，识别模型在推理过程中的错误类型，并进一步优化模型的推理能力。此外，PRMBENCH还可用于教育领域，帮助学生和教师识别和纠正推理过程中的错误，提升学习效果。

数据集最近研究

相关研究论文

1
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models复旦大学, 苏州大学, 上海人工智能实验室, 石溪大学, 香港中文大学 · 2025年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，由穆罕默德·本·扎耶德人工智能大学等机构创建，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学图像-文本数据，实现了可扩展的视觉-语言模型（VLM）预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题，适用于多种医学成像任务，如零样本分类和跨模态泛化。

arXiv 收录

RadDet

RadDet是一个包含11种雷达类别的数据集，包括6种新的低概率干扰（LPI）多相码（P1, P2, P3, P4, Px, Zadoff-Chu）和一种新的宽带调频连续波（FMCW）。数据集覆盖500 MHz频段，包含40,000个雷达帧，分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供：稀疏数据集（RadDet-1T）和密集数据集（RadDet-9T）。

github 收录