Reasoning Bench (R-Bench)

Name: Reasoning Bench (R-Bench)
Creator: 清华大学, 斯坦福大学, 卡内基梅隆大学, 宾夕法尼亚大学, 腾讯混元, Fitten
Published: 2025-05-04 15:48:36
License: 暂无描述

arXiv2025-05-04 更新2025-05-08 收录

下载链接：

数据及代码公开地址

下载链接

链接失效反馈

官方服务：

资源简介：

R-Bench是一个用于评估语言和多媒体模型推理能力的高水平、多学科、英汉双语的基准数据集。它包含1094个语言模型评价问题和665个多模态模型测试问题，涵盖108个学科。这些问题经过精心挑选，确保难度校准、学科平衡和跨语言对齐，使其成为一项奥林匹克级的多学科基准。该数据集旨在解决现有推理基准在评估复杂推理能力方面的不足，特别是在多学科和多模态情境下。数据集的创建过程包括数据收集、筛选和改进等多个步骤，并通过专家筛选、模型筛选和人工审查进行三次筛选，确保问题的质量。此外，R-Bench还具有多语言特性，通过手动构建选项和翻译，使其能够评估模型在不同语言下的推理能力。

R-Bench is a high-caliber, multi-disciplinary, English-Chinese bilingual benchmark dataset for evaluating the reasoning capabilities of language and multimedia models. It contains 1094 language model evaluation questions and 665 multimodal model test questions, covering 108 disciplines. These questions are carefully selected to ensure difficulty calibration, discipline balance and cross-language alignment, making it an Olympic-grade multi-disciplinary benchmark. This dataset aims to address the limitations of existing reasoning benchmarks in assessing complex reasoning capabilities, especially in multi-disciplinary and multimodal scenarios. The creation process of the dataset includes multiple steps such as data collection, screening and refinement, and undergoes three rounds of screening via expert review, model validation and manual inspection to ensure the quality of the questions. In addition, R-Bench features a multilingual design, which enables the evaluation of models' reasoning capabilities across different languages by manually constructing answer options and performing translations.

提供机构：

清华大学, 斯坦福大学, 卡内基梅隆大学, 宾夕法尼亚大学, 腾讯混元, Fitten

创建时间：

2025-05-04

搜集汇总

数据集介绍

构建方式

R-Bench数据集的构建过程体现了严谨的学科交叉方法论。研究团队基于清华大学19个院系的100余门研究生课程，通过多阶段筛选机制构建基准：首先由51名跨学科专家从考试、教材等原始材料中筛选1,094道文本问题和665道多模态问题；随后采用三级过滤体系，包括专家剔除知识型问题、o1模型基于2,000推理token的难度筛选，以及人工审核确保问题完整性、无歧义性和学科平衡性。所有问题均转换为标准化单选格式，并完成中英双语人工校验，最终形成覆盖108个文本科目和83个多模态科目的评估体系。

特点

该数据集具有三大核心特征：1) 学科覆盖的广谱性，涵盖数学、物理、计算机等19个学科的191个专业领域，避免了单一学科偏差；2) 问题设计的深度性，通过研究生课程难题和Olympiad级校准，使顶级模型o1准确率仅达53.2%；3) 评估维度的多元性，同时支持文本与多模态推理评估，并提供严格对齐的中英文双语测试环境。特别值得注意的是，其多模态问题要求模型协同处理公式、图表等异构信息，构建了接近真实科研场景的评估框架。

使用方法

使用R-Bench时需要遵循标准化评估协议：对于语言模型评估，采用零样本提示下的思维链(CoT)推理模式，输入格式需包含'逐步思考'的指令和6选项标准化模板；多模态评估则需将视觉信息与文本问题联合输入。评估指标采用Top-1准确率，建议同时测试中英文版本以验证跨语言推理一致性。为保障结果可比性，需控制温度参数为0，并使用OpenCompass或VLMEvalKit等标准化评估工具。数据集特别适用于检验模型在复杂学科交叉场景中的系统II型推理能力。

背景与挑战

背景概述

Reasoning Bench (R-Bench) 是由清华大学、斯坦福大学、卡内基梅隆大学等多家知名机构的研究人员于2025年推出的一个多学科、多模态的复杂推理评估基准。该数据集旨在解决现有基准在评估复杂推理能力方面的不足，特别是在多学科和多模态情境下的推理能力。R-Bench包含1,094个语言模型评估问题和665个多模态模型评估问题，涵盖108个学科和83个多模态学科，问题难度经过严格校准，旨在成为奥林匹克级别的多学科评估基准。

当前挑战

R-Bench面临的挑战主要包括两个方面：1) 领域问题的挑战：现有模型在复杂推理任务上表现不佳，尤其是在多模态推理方面，即使是表现最好的模型OpenAI o1在多模态评估中的准确率也仅为53.2%；2) 构建过程中的挑战：数据收集和筛选过程复杂，需要跨学科专家的参与，确保问题的难度和学科平衡，同时还需进行多轮严格筛选和翻译工作，以确保数据的质量和多语言对齐。

常用场景

经典使用场景

R-Bench作为跨学科、多模态的复杂推理基准，其经典使用场景聚焦于评估语言模型（LLMs）和多模态模型（MLLMs）在研究生学科层次上的高级推理能力。例如，在计算机科学领域，模型需解析数据结构中的图论问题；在物理学中，需结合电磁学公式与图像分析电路设计。其双语（英汉）特性进一步要求模型在跨语言环境下保持推理一致性，如数学问题中的复变函数零点计算需同时处理两种语言的题干与选项。

解决学术问题

R-Bench通过覆盖19个学科的1791道高难度题目，解决了现有基准（如MMLU、MMMU）因模型性能饱和而无法有效区分高级推理能力的局限。其设计针对三大核心学术问题：1）多模态融合推理的评估空白（如机械工程中结合力学公式与示意图的夹砖问题）；2）跨学科知识迁移的量化（如经济学中的博弈论与化学动力学分析的混合题型）；3）语言无关的纯推理能力测试（通过严格对齐的英汉题目对消除语言偏置）。实验表明，顶尖模型GPT-4o在R-Bench-M上的准确率仅33.4%，显著低于文本推理（53.6%），揭示了当前多模态推理的薄弱环节。

衍生相关工作

R-Bench催生了三类经典衍生研究：1）推理增强技术如CoT-MLLM（Lightman et al., 2023）针对其多模态题目开发视觉-语言联合推理链；2）跨学科评估框架Discipline-Mixer（Wang et al., 2024b）通过重组其化学动力学（20题）与统计力学（14题）构建新型混合题型；3）语言鲁棒性研究如X-Reason（Yue et al., 2024b）利用其英汉平行数据探究语言对量子力学推理的影响。这些工作显著推进了复杂推理评估的细粒度化与实用化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集