RV-Bench

Name: RV-Bench
Creator: 香港理工大学, 电子科技大学, 暨南大学, 西蒙弗雷泽大学
Published: 2025-01-21 07:41:22
License: 暂无描述

arXiv2025-01-21 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.11790v1

下载链接

链接失效反馈

官方服务：

资源简介：

RV-Bench是由香港理工大学等机构提出的一个用于评估大语言模型数学推理能力的基准数据集。该数据集基于MATH和LeetCode-Math两个数据源构建，包含900多个随机变量问题。通过随机化变量组合，RV-Bench能够有效评估模型在解决数学问题时的真实推理能力，避免了现有基准测试中可能存在的数据泄露问题。数据集的构建过程包括问题函数的初始化、求解和生成模块，确保了问题的多样性和难度与原问题一致。RV-Bench旨在解决当前LLMs在复杂数学推理任务中的性能评估问题，为模型提供了更真实的测试环境。

RV-Bench is a benchmark dataset proposed by institutions including the Hong Kong Polytechnic University for evaluating the mathematical reasoning capabilities of Large Language Models (LLMs). Constructed based on two data sources, MATH and LeetCode-Math, this dataset contains over 900 random variable problems. By randomizing variable combinations, RV-Bench can effectively assess the genuine reasoning abilities of models when solving mathematical problems, while avoiding potential data leakage issues present in existing benchmark tests. The construction pipeline of the dataset includes modules for problem function initialization, solution, and generation, ensuring that the diversity and difficulty level of the generated problems match those of the original source problems. RV-Bench is designed to address the performance evaluation challenges of current LLMs in complex mathematical reasoning tasks, providing a more authentic testing environment for these models.

提供机构：

香港理工大学, 电子科技大学, 暨南大学, 西蒙弗雷泽大学

创建时间：

2025-01-21

搜集汇总

数据集介绍

构建方式

RV-Bench的构建方式基于随机变量问题（RV问题）的框架，旨在评估大型语言模型（LLMs）在数学推理方面的真实能力。该数据集从两个数学数据源MATH和LeetCode-Math中选取问题，构建问题函数，生成带有随机变量的实例化问题及其答案。问题函数包括初始化、解决方案和生成模块，分别负责实例化随机变量、解决各种变量组合的问题并生成RV-Bench的问答对。通过这种方式，RV-Bench提供了广泛的变量组合问题，以评估LLMs在数学推理方面的能力。

特点

RV-Bench的特点在于其随机变量问题的设计，这要求LLMs能够理解和解决具有不同变量组合的数学问题。此外，RV-Bench提供“未见过”的问题，即使模型在训练过程中接触过某些基准数据，也能展现出其在数学推理方面的真实性能。RV-Bench的设计旨在解决现有基准数据集可能存在的过于简单或数据泄露的问题，从而更准确地反映LLMs在数学推理方面的真实能力。

使用方法

RV-Bench的使用方法包括从数据源中选取问题，构建问题函数，生成带有随机变量的实例化问题及其答案。然后，将这些问题用于评估LLMs在数学推理方面的能力。RV-Bench提供四个评估指标：精确匹配准确率（EM）、组准确率@n（GA@n）、完整准确率（CA）和原始问题准确率（OOR），以从不同角度评估LLMs的能力。此外，RV-Bench还提供了排行榜，以展示不同LLMs在RV-Bench上的真实数学推理能力排名。

背景与挑战

背景概述

在大型语言模型（LLMs）在数学推理方面的不断进步中，对其在该领域性能的评估已成为研究焦点。近期研究对现有数学基准的可靠性提出了质疑，指出其设计过于简单化且存在数据泄露的可能性。因此，创建一个可靠的基准，以有效评估LLMs在数学推理方面的真实能力，仍然是一个重大挑战。为了解决这一问题，我们提出了RV-Bench，一个通过随机变量对LLMs进行数学推理基准测试的框架。具体来说，随机变量问题（RV问题）的背景内容与现有标准基准中的原始问题相呼应，但变量组合被随机化为不同的值。LLMs必须充分理解原始问题的解题过程，才能正确回答具有各种变量值组合的RV问题。因此，LLMs在RV-Bench上的准确性反映了它们在数学推理方面的真实能力。我们进行了广泛的实验，使用29个代表性的LLMs在900多个RV问题上进行了测试。RV-Bench的排行榜对LLMs的真实能力进行了排名。进一步的准确率下降分析表明，当前的LLMs在复杂的数学推理问题上仍然存在困难。

当前挑战

RV-Bench面临的主要挑战包括：1) 所解决的领域问题的挑战：LLMs在处理具有不同变量组合的数学推理问题时，准确性显著下降，这表明它们可能依赖于对特定问题的记忆而不是真正的理解；2) 构建过程中所遇到的挑战：在构建RV-Bench时，确保问题的难度水平与原始问题一致，并且生成的RV问题能够有效评估LLMs的真实能力，需要精细的设计和验证过程。此外，由于LLMs的推理能力可能具有领域依赖性，因此在评估过程中需要考虑模型的领域适应性。

常用场景

经典使用场景

RV-Bench数据集主要用于评估大型语言模型（LLMs）在数学推理方面的真实能力。它通过随机变量问题（RV问题）来测试LLMs在不同变量组合下的解题能力，从而揭示LLMs是否真正理解了数学问题的解决过程，而不仅仅是记忆了特定问题的答案。RV-Bench数据集包含了从MATH和LeetCode-Math两个数据源中精心挑选的问题，这些问题被转化为具有随机变量的问题函数，以生成各种实例化问题。LLMs必须在理解原始问题的解决过程的基础上，才能正确回答这些RV问题。通过这种方式，RV-Bench数据集提供了一个更可靠和有效的评估框架，以评估LLMs在数学推理方面的真实能力。

衍生相关工作

RV-Bench数据集的提出，引发了相关领域的研究热潮。例如，有研究者提出了GSM-Symbolic数据集，通过使用符号模板生成多样化的问题，以评估LLMs的数学推理能力；有研究者提出了OpenMath数据集，通过使用数学指令微调LLMs，以提高其在数学问题上的表现；还有研究者提出了MathShepherd方法，通过验证和强化LLMs的每一步推理，以提高其在数学问题上的表现。这些相关工作都受到了RV-Bench数据集的启发，并在此基础上进行了进一步的探索。

数据集最近研究