PRBench

github2025-11-20 更新2025-11-21 收录

下载链接：

https://github.com/scaleapi/PRBench

下载链接

链接失效反馈

官方服务：

资源简介：

PRBench是一个大规模专家标注的专业领域高风险推理基准测试数据集，当前版本覆盖法律和金融领域。包含1,100个专家编写的跨金融和法律领域的对话，19,356个专家策划的评估标准（每个任务10-30条），覆盖114个国家、47个美国司法管辖区和25个专业主题，并包含最具挑战性任务的硬子集（Finance-300, Legal-250）。

PRBench is a large-scale expert-annotated high-stakes reasoning benchmark dataset for professional domains. Its current version covers the legal and financial fields. It contains 1,100 expert-written dialogues spanning both financial and legal sectors, 19,356 expert-curated evaluation criteria (10–30 per task), covering 114 countries, 47 U.S. judicial jurisdictions, and 25 professional topics. Additionally, it includes a hard subset of the most challenging tasks, namely Finance-300 and Legal-250.

创建时间：

2025-11-14

原始信息汇总

PRBench 数据集概述

数据集基本信息

名称：PRBench（Professional Reasoning Benchmark）
性质：大规模专家标注的专业领域高风险推理基准
当前版本覆盖领域：法律和金融

数据集规模

专家撰写的对话数量：1,100个（涵盖金融和法律领域）
专家策划的评分标准数量：19,356个（每个任务10-30个标准）
专业主题总数：25个

覆盖范围

国家覆盖：114个国家
美国司法管辖区：47个
挑战性子集：
- Finance-300：代表最具挑战性的金融任务
- Legal-250：代表最具挑战性的法律任务

主要功能

提供基于评分标准评估的代码
支持模型响应生成
通过LLM-judge进行自动评分
包含缓存、重试和报告功能

评估流程

安装requirements.txt中的依赖项
设置API密钥和端点URL
配置config.yaml文件
选择要评估的响应模型
运行评估脚本

输出结果

结果保存在results/目录下
论文中报告mean_clipped分数
单个数据点结果可在outputs/目录下找到

搜集汇总

数据集介绍

构建方式

在专业推理评估领域，PRBench通过系统化采集与标注构建了权威数据集。该数据集汇集了金融与法律两大专业领域的1100组专家撰写的对话内容，每个任务均配备10至30条专业制定的评分标准，累计形成19356项精细化评估维度。构建过程中覆盖了114个国家及47个美国司法辖区的专业实践场景，并针对25个核心议题建立结构化知识体系，最终通过划分金融300题与法律250题的高难度子集实现多维度的能力评估框架。

特点

作为专业领域推理评估的标杆，PRBench展现出鲜明的专业深度与广度特征。其核心价值体现在由领域专家直接参与的内容创作与标准制定，确保评估项与现实专业场景的高度契合。数据集特别设计了覆盖全球主要司法辖区与金融市场的知识网络，通过分层标注体系将复杂专业问题解构为可量化的评估指标。硬核子集的设立进一步强化了对高阶推理能力的甄别效能，为专业智能系统的能力边界探索提供精准测量工具。

使用方法

基于PRBench的评估流程采用模块化设计理念，研究者可通过配置YAML文件灵活设定API密钥与模型参数。评估系统支持两种响应获取模式：实时采样生成与预填充加载，通过OpenAI兼容接口实现自动化评分与缓存管理。运行eval.py主程序后，系统将依据专业制定的评分标准对模型响应进行多维度量化评估，结果文件分别保存在results与outputs目录下，其中均值裁剪分数作为核心指标反映模型的综合推理能力。

背景与挑战

背景概述

PRBench作为专业领域推理评估的重要里程碑，由Scale AI研究团队于2024年正式发布。该数据集聚焦法律与金融两大高风险专业领域，通过1,100组专家撰写的对话场景和19,356条精细化评估标准，构建起覆盖114个国家与47个美国司法辖区的知识体系。其核心价值在于填补了传统基准在专业决策场景中的评估空白，通过模拟真实行业情境中的复杂推理过程，为衡量人工智能模型在专业领域的认知能力提供了标准化框架。

当前挑战

专业领域推理面临双重挑战：在问题维度，法律条文的多义性与金融市场的动态性要求模型具备跨司法辖区的知识迁移能力和不确定性下的风险预判；在构建层面，专家标注的一致性保障与19,356条评估准则的粒度平衡成为关键难点，既要保持专业术语的精确性，又需兼顾评估体系的可扩展性。数据采集过程中涉及的多国法律差异与金融监管条款的实时更新，进一步增加了数据验证的复杂度。

常用场景

经典使用场景

在专业推理评估领域，PRBench作为大规模专家标注的基准数据集，广泛应用于法律与金融等高风险专业领域的模型性能测试。其核心场景涉及通过专家构建的对话任务与精细化评分标准，系统评估大型语言模型在复杂决策环境中的推理能力，尤其聚焦于跨司法管辖区与专业主题的多维度分析。

解决学术问题

该数据集通过19,356条专家制定的评分标准，有效解决了专业领域推理任务缺乏标准化评估框架的学术难题。其覆盖114个国家与47个美国司法辖区的设计，为研究跨文化法律适用性与金融合规性提供了结构化数据支撑，显著推进了高风险决策场景下人工智能可信度的量化研究进程。

衍生相关工作

基于该数据集衍生的经典研究包括Scale AI开发的轻量级评估框架与可视化探索平台，这些工作构建了专业领域推理任务的标准化测评范式。后续研究进一步拓展至医疗诊断与工程安全等垂直领域，形成了以专家标注为核心的多维度评估方法体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集