MR-BEN

Name: MR-BEN
Creator: 香港中文大学
Published: 2024-06-20 11:50:23
License: 暂无描述

arXiv2024-06-20 更新2024-06-24 收录

下载链接：

https://randolph-zeng.github.io/Mr-Ben.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MR-BEN是由香港中文大学等机构创建的综合性元推理基准，包含5975个问题，覆盖数学、生物、物理、编程和逻辑等多个学科。数据集通过挑战模型定位和分析自动生成推理步骤中的潜在错误，来评估模型的元推理技能。创建过程中，专家精心设计问题并进行标注，确保数据质量。MR-BEN的应用领域广泛，旨在解决现有评估方法在推理能力评估上的不足，推动AI推理框架的发展。

MR-BEN is a comprehensive meta-reasoning benchmark created by institutions including The Chinese University of Hong Kong and other relevant research organizations. It consists of 5,975 questions spanning multiple disciplines such as mathematics, biology, physics, programming, and logic. This benchmark evaluates the meta-reasoning skills of AI models by challenging them to locate and analyze potential errors in automatically generated reasoning steps. During the development of MR-BEN, experts meticulously designed and annotated all questions to ensure high data quality. With broad application scenarios, MR-BEN aims to address the shortcomings of existing evaluation methods for reasoning ability and promote the advancement of AI reasoning frameworks.

提供机构：

香港中文大学

创建时间：

2024-06-20

搜集汇总

数据集介绍

构建方式

MR-BEN数据集的构建过程涉及了从多个学科领域收集问题，包括自然科学（数学、生物学、物理学）、编码和逻辑。这些问题被设计为涵盖各种推理类型和难度水平，从高中到专业水平。通过使用GPT-3.5-Turbo-0125、Claude2和Mistral-Medium等大型语言模型（LLM）来生成问题的Chain-of-Thought（CoT）答案，并通过人工标注来提供错误分析和纠正。数据集的结构包括三个关键要素：问题、CoT答案和错误分析。

使用方法

使用MR-BEN数据集的方法包括评估LLM的推理能力，通过要求模型识别和分析自动生成的推理步骤中的潜在错误。这可以通过手动标注或使用自动化工具来完成。数据集还提供了评估模型性能的指标，如MR-Score，该指标考虑了解决方案的正确性、识别第一个错误步骤的能力以及提供错误原因的能力。此外，研究人员可以利用MR-BEN数据集来开发LLM的推理能力，并探索新的推理框架。

背景与挑战

背景概述

MR-BEN数据集是一个由香港中文大学、剑桥大学、爱丁堡大学等机构的研究人员于2024年共同创建的元推理评估基准。该数据集旨在评估大型语言模型（LLMs）的推理能力，特别是它们识别和纠正自动生成推理步骤中的潜在错误的能力。MR-BEN包含来自人类专家的5,975个问题，涵盖物理、化学、逻辑、编码等多个学科。通过设计用于评估该基准上的元推理的指标，研究人员发现了当前LLMs（开源和闭源模型）的有趣限制和弱点。例如，开源模型在基于结果的基准上似乎与GPT-4相当，但在MR-BEN基准上却落后很多，揭示了它们之间推理能力的差距。该数据集和代码可在https://randolph-zeng.github.io/Mr-Ben.github.io/上获得。

当前挑战

MR-BEN数据集面临的挑战主要包括：1) 评估LLMs的推理能力，特别是识别和纠正推理步骤中的潜在错误的能力；2) 构建过程中遇到的挑战，包括数据收集、模型推理、人工标注等。这些挑战需要研究人员不断改进评估方法、提高数据质量和模型性能，以推动LLMs推理能力的进一步提升。

常用场景

经典使用场景

MR-BEN数据集被广泛应用于评估大型语言模型（LLMs）的推理能力，尤其是在元推理方面。该数据集要求模型不仅提供问题的答案，还要评估自动生成的推理步骤中潜在的错误。这使得MR-BEN成为一个全面的基准，涵盖了从自然科学到编码和逻辑等多个领域的5975个问题。通过对这个数据集上的模型进行分析，研究者们可以识别出LLMs推理能力的局限性和弱点，从而指导模型的发展和改进。

解决学术问题

MR-BEN数据集解决了现有基准在评估LLMs推理能力方面的局限性。传统的评估方法主要关注最终结果，而忽略了推理过程的复杂性。MR-BEN通过引入元推理范式，要求模型评估推理过程的正确性、分析潜在的错误并提供修正，从而揭示了LLMs在推理能力上的深层次问题。例如，一些模型虽然能够在结果基准上生成正确的答案，但难以指出推理过程中的错误并进行修正。MR-BEN的引入为LLMs推理能力的研究提供了新的视角和工具。

实际应用

MR-BEN数据集的实际应用场景包括但不限于教育、医疗、金融和环境保护等领域。在教育领域，MR-BEN可以用于开发智能教育工具，帮助学生理解和提高他们的推理技能。在医疗领域，MR-BEN可以帮助开发更准确、更可靠的医疗诊断系统。在金融领域，MR-BEN可以用于开发更智能的金融分析工具。在环境保护领域，MR-BEN可以用于开发更有效的环境保护策略。

数据集最近研究