Libra-Bench

Hugging Face2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/meituan/Libra-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Libra Bench是一个针对推理型奖励模型进行评估的基准数据集，包含3740个样本，每个样本包括一个数学问题、模型生成的回答、正确性标签、回答模型、参考答案、问题来源以及带有COT的完整回答。该数据集旨在评估模型对问题回答的正确性。

创建时间：

2025-07-29

原始信息汇总

Libra Bench数据集概述

数据集简介

名称: Libra Bench
类型: 奖励模型（RM）基准测试
目的: 评估点式判断准确性（针对正确性）
特点: 基于多样化数学问题和先进推理模型构建，专注于复杂推理任务的正确性评估

数据集详情

样本数量: 3,740个
语言: 英语
许可协议: MIT
规模分类: 1K<n<10K

数据结构

包含以下字段：

index: 样本ID
question: 数学问题
response: LLM生成的回答
label: 二进制标签（回答是否正确）
model: 回答生成模型
reference: 问题参考答案
subset: 问题来源
response_with_cot: 包含COT内容的完整回答版本

使用方法

运行奖励模型评估给定问题的回答正确性，按子集分别计算准确率后取平均得到最终得分。

引用信息

bibtex @misc{zhou2025libraassessingimprovingreward, title={Libra: Assessing and Improving Reward Model by Learning to Think}, author={Meng Zhou and Bei Li and Jiahao Liu and Xiaowen Shi and Yang Bai and Rongxiang Weng and Jingang Wang and Xunliang Cai}, year={2025}, eprint={2507.21645}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.21645}, }

搜集汇总

数据集介绍

构建方式

在人工智能推理评估领域，Libra-Bench数据集通过系统化方法构建，其核心来源于多样化的数学难题与先进推理模型的结合。该数据集精选了具有挑战性的数学问题，并利用多个大型语言模型生成对应回答，随后通过人工或自动化流程对回答的正确性进行二元标注，确保数据质量与评估目标的一致性。

特点

Libra-Bench数据集具备高度专业性与结构完整性，共包含3740个样本，每个样本涵盖问题、模型生成回答、正确性标签及参考解答等多维度信息。其特点在于专注于推理正确性的评估，覆盖不同问题来源和模型输出，并提供了包含思维链的完整响应版本，适用于深入分析模型推理能力。

使用方法

使用Libra-Bench时，研究人员可运行奖励模型对给定问题下的模型响应进行正确性评判，依据二元标签计算准确率。评估需按问题子集分别进行，最终通过加权平均获得总体性能指标，适用于奖励模型优化及推理能力对比研究。

背景与挑战

背景概述

随着大语言模型在复杂推理任务中的广泛应用，评估模型输出正确性的奖励机制成为关键研究课题。Libra-Bench由Zhou等人于2025年提出，依托深度求索等机构的前沿研究，专注于构建面向数学推理领域的奖励模型评估基准。该数据集通过整合多源数学难题和先进推理模型的生成结果，旨在为奖励模型提供精准的正确性判断能力测试平台，对推动推理对齐技术的发展具有重要理论价值。

当前挑战

该数据集核心挑战在于解决数学推理领域输出正确性的精细化评估问题，需克服多步骤推理中部分正确与完全错误间的模糊界限。构建过程中面临标注一致性维护的难题，特别是针对大语言模型生成的包含思维链的复杂响应，需要专家级数学知识进行二进制正确性标注，同时确保不同问题来源的子集间难度分布均衡。

常用场景

经典使用场景

在人工智能推理模型评估领域，Libra-Bench作为专业基准数据集，主要用于测试奖励模型在复杂数学问题上的判断准确性。研究者通过输入问题与模型生成的回答，系统自动评估回答的正确性，并计算各子集的准确率均值，为模型优化提供量化依据。该场景广泛应用于大语言模型的推理能力验证与对比分析。

解决学术问题

Libra-Bench有效解决了奖励模型在复杂推理任务中评估标准缺失的学术难题。通过提供带有标准答案的数学问题集和模型响应标签，它使研究者能够精确量化模型推理性能，推动奖励模型与人类偏好对齐的研究。该数据集为评估模型的逻辑一致性和答案正确性提供了可靠基准，显著提升了推理模型研究的科学性与可重复性。

衍生相关工作

围绕Libra-Bench数据集，衍生出多项经典研究工作，包括基于DeepSeek-R1和Qwen系列模型的奖励模型优化算法、思维链（CoT）增强的评估方法，以及轻量化蒸馏模型开发。这些工作显著推进了奖励模型的泛化能力研究，并为后续基于二进制标注的推理评估基准设立了重要参考标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

Libra-Bench

Libra Bench数据集概述

数据集简介

数据集详情

数据结构

使用方法

相关模型

引用信息