five

ProfBench

收藏
Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/nvidia/ProfBench
下载链接
链接失效反馈
官方服务:
资源简介:
ProfBench是一个包含40个经过人类注释的任务的数据集,这些任务涵盖了STEM领域的博士水平专业任务(化学、物理学)以及专业服务领域(金融服务、管理咨询)。数据集包含3000多个评分标准,适用于商业和非商业用途。
提供机构:
NVIDIA
创建时间:
2025-10-17
原始信息汇总

ProfBench数据集概述

数据集基本信息

  • 数据集名称:ProfBench
  • 所有者:NVIDIA Corporation
  • 创建日期:2025年9月24日
  • 许可证:NVIDIA Evaluation Dataset License
  • 语言:英语
  • 数据规模:小于1K
  • 存储大小:1 MB

数据集内容

  • 任务数量:40个带人工标注的任务
  • 评估标准:超过3000个评分标准
  • 专业领域
    • STEM领域:化学博士、物理博士
    • 专业服务领域:金融服务MBA、管理咨询MBA

数据格式

  • 格式类型:文本
  • 记录数量:40条记录
  • 记录字段
    • ID:每个样本的唯一标识符
    • Domain:专业领域(化学博士/物理博士/金融MBA/咨询MBA)
    • Prompt:大型语言模型的指令
    • Rubrics:15-59个用于评估最终模型输出的独特标准
    • Model Responses:来自OpenAI o3/xAI Grok4/DeepSeek R1-0528的3个响应

数据收集与标注

  • 收集方法:混合方法(人工、合成、自动化)
  • 标注方法:人工标注
  • 技术说明:部分数据使用Grok创建

使用目的

  • 主要用途:评估大型语言模型在专业任务上的表现
  • 推荐工具:Nemo Evaluator SDK(支持跨数十个基准测试的统一评估接口)
  • 使用权限:支持商业/非商业用途

相关资源

  • 论文地址:https://arxiv.org/abs/2510.18941
  • 数据地址:https://huggingface.co/datasets/nvidia/ProfBench
  • 代码地址:https://github.com/NVlabs/ProfBench

伦理考虑

NVIDIA强调可信AI是共同责任,开发者应根据行业和使用案例需求确保模型符合要求,并处理意外产品误用问题。

搜集汇总
数据集介绍
main_image_url
构建方式
在专业领域知识评估框架的构建中,ProfBench数据集采用混合式数据采集策略,融合人工标注、自动化生成与合成技术。该数据集涵盖化学、物理博士及金融、咨询硕士四大专业领域,通过人工精心设计40项专业任务并制定3000余项评估准则,每条记录均包含领域分类、任务指令、评估量规及三大前沿模型的生成响应,形成多维度的专业能力测评体系。
使用方法
针对专业领域大语言模型的系统性评估需求,研究者可通过解析数据集中的领域标签与任务指令,结合配套的精细化评估量规对模型输出进行多维度量化分析。建议配合Nemo Evaluator SDK实现标准化评估流程,利用预设的评估准则体系对模型在专业知识理解、逻辑推理等维度的表现进行科学度量,推动专业领域语言模型的能力边界探索。
背景与挑战
背景概述
在人工智能与专业领域知识深度融合的背景下,ProfBench数据集由NVIDIA Corporation于2025年9月24日推出,旨在系统评估大型语言模型在专业任务中的表现能力。该数据集聚焦于博士级STEM领域(化学、物理)与专业服务领域(金融服务、管理咨询),通过40项人工标注任务和超过3000条评估标准,构建了涵盖专业报告生成与评判的多维度评测框架。其设计体现了将领域专家知识转化为结构化评估指标的创新思路,为专业场景下语言模型的可靠性验证提供了重要基准。
当前挑战
ProfBench面临的领域挑战在于如何准确捕捉专业任务中隐含的领域知识与逻辑推理要求,例如化学实验设计中的安全规范或金融分析中的合规性判断,这些都需要超越表层语义的深层专业认知。在构建过程中,数据集需克服专业标注的高门槛难题,包括招募具备博士或MBA背景的标注人员、设计覆盖不同专业维度的评估准则,以及确保跨领域标注标准的一致性。同时,合成数据与人工标注的混合方法也带来了质量控制的复杂性,需平衡自动化效率与专家判断的精确性。
常用场景
经典使用场景
在专业领域知识评估的背景下,ProfBench数据集被广泛应用于测试大型语言模型在STEM学科与专业服务领域的深度理解能力。其经典使用场景涉及模型对化学、物理等博士级课题及金融、咨询等MBA级别任务的响应生成,通过预设的精细评分标准系统评估模型输出的专业性与准确性。这种结构化评估方式为模型在复杂专业场景中的表现提供了标准化度量框架。
解决学术问题
该数据集有效解决了专业领域自然语言处理中缺乏细粒度评估标准的学术难题。通过引入涵盖15至59项专业准则的评分体系,填补了传统基准测试在专业知识深度评估上的空白。其多领域标注数据为研究社区提供了衡量模型专业认知能力的可靠依据,推动了面向专业场景的语言模型评估方法论的发展,对提升模型在真实专业环境中的适用性具有重要学术价值。
实际应用
在现实应用层面,ProfBench为金融咨询机构和科研院所提供了专业能力评估工具。投资银行可利用该数据集测试模型对财务分析报告的生成质量,管理咨询公司能评估模型对商业战略建议的专业度。同时,高等教育机构可借助其评估学术助手模型在物理、化学等专业领域的答疑能力,确保模型输出符合学科专业标准,显著提升专业场景下人工智能辅助决策的可靠性。
数据集最近研究
最新研究方向
在专业领域大语言模型评估框架的演进中,ProfBench作为首个融合STEM与专业服务领域的多维标注数据集,正推动评估范式从通用能力向专业认知深度转变。该数据集通过40项人类标注任务构建的3000余条专业准则,精准聚焦化学物理等硬科学及金融咨询等决策场景的认知复杂度,其创新性地整合多模型响应与结构化评估矩阵,为专业领域可信AI研究提供了细粒度验证基础。当前研究热点集中于专业知识推理的可解释性验证、跨领域决策一致性分析,以及人类反馈对齐机制在专业场景的适应性优化,这些探索对突破行业大模型的专业壁垒具有重要实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作