ProfBench

github2025-10-23 更新2025-10-26 收录

下载链接：

https://github.com/NVlabs/ProfBench

下载链接

链接失效反馈

官方服务：

资源简介：

ProfBench引入了超过3000个专家撰写的响应-标准对，涵盖商业和科学研究四个专业领域的40个任务 - 物理博士、化学博士、金融MBA和咨询MBA - 能够评估超越考试式问答或仅代码/数学设置的开放式、基于文档的专业任务。即使前沿模型也发现ProfBench具有挑战性：最佳报告生成器GPT-5-high仅达到65.9%的整体得分，突显了在需要综合和长形式分析的现实专业工作流程中存在显著改进空间。

ProfBench introduces over 3,000 expert-written response-reference pairs, covering 40 tasks across four professional domains in business and scientific research: Doctoral-level Physics, Doctoral-level Chemistry, Financial MBA, and Consulting MBA. This benchmark enables evaluation of open-ended, document-grounded professional tasks that transcend exam-style question answering or code/math-only settings. Even state-of-the-art models find ProfBench challenging: the top-performing reported generator GPT-5-high achieved only an overall score of 65.9%, highlighting substantial room for improvement in real-world professional workflows requiring synthesis and long-form analysis.

创建时间：

2025-09-29

原始信息汇总

ProfBench 数据集概述

数据集简介

ProfBench 是一个包含3000多个专家撰写的响应-标准对的数据集，涵盖商业和科学研究四个专业领域的40个任务，具体包括物理学博士、化学博士、金融MBA和咨询MBA领域。

核心特点

支持开放式、基于文档的专业任务评估
超越考试式问答或仅限代码/数学的设置
即使前沿模型也认为具有挑战性：最佳报告生成器GPT-5-high仅达到65.9%的总体得分
强调在需要综合和长篇分析的现实专业工作流程中存在显著提升空间

评估方法

提出稳健、经济的LLM-Judge评估方法
结合Macro-F1测量和偏差指数来减轻自我增强偏差
实现跨提供者偏差低于1%
相比之前的基准测试，评估成本降低2-3个数量级

数据获取

数据集可通过以下地址获取：https://huggingface.co/datasets/nvidia/ProfBench

引用信息

bibtex @misc{wang2025profbenchmultidomainrubricsrequiring, title={ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge}, author={Zhilin Wang and Jaehun Jung and Ximing Lu and Shizhe Diao and Ellie Evans and Jiaqi Zeng and Pavlo Molchanov and Yejin Choi and Jan Kautz and Yi Dong}, year={2025}, eprint={2510.18941}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.18941}, }

搜集汇总

数据集介绍

构建方式

在专业能力评估领域，ProfBench通过系统化构建流程确立了新的基准。该数据集汇集了来自物理学博士、化学博士、金融MBA和咨询MBA四大专业领域的专家团队，精心撰写了超过3000组响应-标准配对，覆盖40项专业任务。构建过程特别注重突破传统考试型问答或单一代码数学场景的局限，通过设计需要文献支撑的开放式专业任务，真实还原了需要综合分析与长文本处理的职业工作场景。

特点

ProfBench的显著特征体现在其专业深度与评估创新性。数据集涵盖四个高度专业化的领域，每个领域任务都要求从业者级别的专业知识进行解答与评判。特别值得关注的是其提出的LLM-Judge评估机制，通过结合宏观F1指标与偏差指数，有效将跨提供者偏差控制在1%以下，同时将评估成本降低了2-3个数量级。这种设计使得即使是最前沿的模型在数据集上也仅能达到65.9%的整体表现，充分证明了其在模拟真实专业工作流程方面的挑战性。

使用方法

该数据集的使用遵循模块化的工作流程。用户首先通过运行报告生成脚本，利用指定模型生成专业领域分析报告；随后调用LLM-Judge评估系统对生成内容进行多维度评分。评估系统会输出包括各专业领域得分、推理能力、信息提取和风格表现等关键指标，同时提供偏差指数和综合评分。整个流程支持OpenAI、OpenRouter和Google等多种模型接口，仅需约12美元即可完成单次评估，大幅提升了专业能力评估的可及性与效率。

背景与挑战

背景概述

ProfBench数据集由英伟达研究院于2025年推出，聚焦商业与科研领域的专业能力评估。该数据集涵盖物理学博士、化学博士、金融MBA及咨询MBA四大专业领域，包含逾3000组专家撰写的应答准则对，旨在突破传统考试型问答或单一代码数学任务的局限，推动开放式文档驱动型专业任务评估体系的发展。其创新性评估框架显著提升了专业工作流程中综合分析与长文本生成能力的量化标准，为人工智能在高端专业场景的应用提供了关键基准。

当前挑战

该数据集核心挑战在于解决专业领域知识合成与长文本分析的评估难题，现有前沿模型在综合评分中最高仅达65.9%，揭示出专业工作流中深度推理与风格适配的能力缺口。构建过程中需克服专家标注成本高昂与评估偏差控制的双重压力，通过设计融合宏观F1度量与偏差指数的轻量化评估器，将跨供应商偏差压缩至1%以下，同时将评估成本降低三个数量级，有效平衡了评估精度与资源消耗间的矛盾。

常用场景

经典使用场景

在专业领域知识评估的背景下，ProfBench数据集通过涵盖物理学博士、化学博士、金融MBA和咨询MBA四大领域的40项任务，为开放式文档驱动型专业任务提供了标准化评估框架。其核心应用场景聚焦于测试大型语言模型在长文本合成与专业分析任务中的表现，例如要求模型基于多篇学术文献撰写综述报告或根据商业数据生成战略建议，有效突破了传统考试式问答或单一数学编程评估的局限。

衍生相关工作

该数据集已催生多领域创新研究，其构建的评估方法论为后续专业领域基准开发树立了新范式。基于ProfBench提出的偏差控制机制被扩展应用于医疗健康领域的HealthBench和学术论文评估的PaperBench，其多维度评分体系启发了对专业写作风格建模、长文档推理机制等方向的深入探索，为专业知识增强型语言模型的技术演进提供了重要实验平台。

数据集最近研究