five

REASONBENCH

收藏
arXiv2025-12-09 更新2025-12-10 收录
下载链接:
https://github.com/au-clan/ReasonBench
下载链接
链接失效反馈
官方服务:
资源简介:
REASONBENCH是由奥胡斯大学和洛桑联邦理工学院联合推出的首个专注于量化大语言模型(LLM)推理不稳定性的基准测试数据集。该数据集包含模块化评估库、多轮运行协议和公开排行榜,覆盖了11种不同的LLM推理方法、4种模型和7种任务,旨在提供统计可靠的性能指标。数据集通过标准化推理框架、模型和任务,支持重复实验以评估推理的稳定性和可复现性,适用于安全关键领域如医疗决策和法律推理等,帮助研究者开发更可靠的推理方法和不确定性量化技术。

REASONBENCH, co-launched by Aarhus University and École Polytechnique Fédérale de Lausanne (EPFL), is the first benchmark dataset dedicated to quantifying the reasoning instability of Large Language Models (LLMs). This dataset includes a modular evaluation library, multi-round running protocols, and a public leaderboard, covering 11 distinct LLM reasoning methods, 4 models, and 7 tasks, aiming to provide statistically reliable performance metrics. By standardizing reasoning frameworks, models, and tasks, the dataset supports reproducible experiments to evaluate the stability and reproducibility of reasoning. It is applicable to safety-critical domains such as medical decision-making and legal reasoning, helping researchers develop more reliable reasoning methods and uncertainty quantification techniques.
提供机构:
奥胡斯大学, 洛桑联邦理工学院
创建时间:
2025-12-09
原始信息汇总

ReasonBench数据集概述

数据集状态

  • 数据集预计发布日期:2025年10月31日
  • 当前状态:开发中,更多信息即将公布
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型推理能力评估领域,现有基准多依赖单次运行精度,忽视了随机解码过程固有的不确定性。REASONBENCH的构建旨在系统量化这种不稳定性,其核心在于一个模块化的评估框架。该框架通过抽象层整合了方法、环境、智能体、状态和模型五大核心组件,实现了对多样化推理策略的统一封装与执行。具体构建过程中,研究团队复现并标准化了十一种前沿推理算法,覆盖了从直接提示到复杂搜索规划的多种范式,并在数学推理、代码生成、知识问答等七个跨领域任务上,对每种模型-算法-任务组合进行了十次独立重复实验,以获取具有统计可靠性的性能与成本置信区间。
特点
REASONBENCH的显著特征在于其首次将推理稳定性作为核心评估维度。该基准不仅报告平均性能,更通过多轮运行协议,系统性地揭示了不同推理策略与模型在质量和成本两个维度上的方差。其发现具有深刻洞察:即便平均性能相近的算法,其置信区间宽度可能相差四倍之多,且性能最优的方法往往伴随着更高且更不稳定的计算成本。此外,基准集成了缓存优化框架,确保了实验的可复现性与成本效率。这些特点共同将可复现性提升为与平均精度同等重要的一级指标,为可靠推理研究奠定了新基础。
使用方法
使用REASONBENCH进行评测,研究者可通过其开源库快速部署标准化实验。该库提供了清晰的API,用户能够以少量代码集成新的推理方法、任务或模型。评估时,系统将自动执行预设的多轮运行协议,并生成包含均值、方差及置信区间的详细报告。对于希望深入分析的研究者,该框架支持对提示工程、模型规模效应以及质量-成本相关性等动态进行探索。通过其公开排行榜,社区可以持续追踪不同方法在稳定性视角下的表现,推动方差感知的评估成为推理研究的新标准。
背景与挑战
背景概述
随着大语言模型在需要多步推理与思维链的复杂场景中日益普及,评估实践中普遍存在的单次运行精度报告模式,却忽视了随机解码过程固有的不确定性。这一盲点使得研究者难以可靠评估模型性能的稳定性、可复现性与成本一致性。由奥胡斯大学与洛桑联邦理工学院的研究团队于2025年12月推出的REASONBENCH,作为首个系统性量化大语言模型推理不稳定性的基准测试,旨在填补这一关键空白。该基准通过模块化评估库、多轮运行协议与公开排行榜,为推理框架、模型与任务提供了标准化的评估体系,其核心研究问题聚焦于揭示并度量推理过程中的性能波动,从而推动可复现性成为可靠推理研究的关键维度,对人工智能安全关键领域的发展具有深远影响。
当前挑战
REASONBENCH致力于解决的领域核心挑战,在于大语言模型推理任务中普遍存在的高不稳定性与低可复现性问题。传统评估仅关注平均精度,掩盖了不同运行间答案正确性与推理路径的巨大方差,这在医疗、法律等安全敏感领域可能引发严重后果。在构建过程中,该数据集面临多重技术挑战:首先,需要设计一个能统一封装多样推理策略(如思维树、智能体舰队)与任务环境的模块化架构,确保公平比较;其次,实施成本可控的多轮重复实验协议以获取统计可靠的置信区间,涉及对大量模型API调用与计算资源的管理;最后,需处理提示词细微差异与输出解析的脆弱性对结果稳定性的显著影响,这要求对评估流程本身进行持续优化与标准化。
常用场景
经典使用场景
在大语言模型推理能力评估领域,REASONBENCH作为首个系统性量化推理不稳定性的基准,其经典使用场景在于为不同推理框架和模型提供可重复、多轮次的标准化测试环境。研究者通过该基准的模块化评估库,能够将诸如思维链、思维树、反应式代理等十一种前沿推理策略,在数学推理、代码生成、知识问答等七类任务上进行公平比较。其核心价值在于通过十次独立运行的协议,揭示单一准确率指标所掩盖的性能波动,为理解模型在随机解码下的真实行为提供了关键实验平台。
解决学术问题
该数据集主要解决了大语言模型推理评估中忽视内在不确定性的关键学术问题。传统评估通常仅报告单次运行的准确率,无法区分性能提升是源于方法改进还是随机波动,这严重损害了研究的可复现性与结论可靠性。REASONBENCH通过引入统计可靠的置信区间与成本方差指标,将评估重点从单一均值拓展到性能分布的稳定性分析。它使得学术界能够量化不同推理策略的稳健性差异,识别出那些平均性能相近但方差悬殊的方法,从而推动推理可靠性成为与准确率同等重要的核心研究维度。
衍生相关工作
REASONBENCH的发布催生了一系列关注推理稳定性的衍生研究。其多轮评估协议与方差报告规范,为后续基准如G-Pass@kτ等提供了方法论基础。许多工作开始系统分析提示词清晰度、解析器鲁棒性等外部因素对性能波动的影响,并探索通过提示工程与输出规范化来降低外在方差。在模型层面,该基准促使社区更审慎地审视模型规模、家族与推理稳定性之间的复杂关系,而非单纯追求平均性能。这些工作共同推动了大语言模型评估从“追求高分”向“理解行为”的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作