prometheus-eval/BiGGen-Bench

Name: prometheus-eval/BiGGen-Bench
Creator: prometheus-eval
Published: 2025-04-03 15:49:31
License: 暂无描述

Hugging Face2025-04-03 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/prometheus-eval/BiGGen-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

BIGGEN-Bench是一个全面的评估基准，旨在评估大型语言模型（LLM）在广泛任务上的能力。该基准专注于自由形式的文本生成，并采用细粒度、实例特定的评估标准。它旨在使用精确、定制的评估标准来评估LLM在各种能力上的表现。评估方法包括使用人类评估者和基于LLM的评估者（如GPT-4、Claude-3-Opus）进行评估，并使用5点Likert量表根据实例特定的量表进行打分。

BIGGEN-Bench (BiG Generation Benchmark) is a comprehensive evaluation benchmark designed to assess the capabilities of large language models (LLMs) across a wide range of tasks. This benchmark focuses on free-form text generation and employs fine-grained, instance-specific evaluation criteria. It aims to evaluate LLMs on diverse capabilities using precise, tailored evaluation criteria. The evaluation methodology includes both human evaluators and LLM-based evaluators (e.g., GPT-4, Claude-3-Opus) and utilizes a 5-point Likert scale based on instance-specific rubrics for scoring.

提供机构：

prometheus-eval

原始信息汇总

数据集概述

数据集信息

特征列表:
- id: 类型为字符串
- capability: 类型为字符串
- task: 类型为字符串
- instance_idx: 类型为整数
- system_prompt: 类型为字符串
- input: 类型为字符串
- reference_answer: 类型为字符串
- score_rubric: 结构类型，包含以下字段:
  - criteria: 类型为字符串
  - score1_description: 类型为字符串
  - score2_description: 类型为字符串
  - score3_description: 类型为字符串
  - score4_description: 类型为字符串
  - score5_description: 类型为字符串
数据分割:
- test: 包含765个样本，总字节数为2637800
下载大小: 1241396字节
数据集大小: 2637800字节

配置信息

默认配置:
- 数据文件路径: data/test-*

其他信息

许可证: cc-by-nd-4.0
任务类别: 文本生成
语言: 英语
数据集大小类别: n<1K

搜集汇总

数据集介绍

构建方式

在语言模型评估领域，BiGGen-Bench的构建体现了严谨的学术原则。该数据集通过精心设计77项具体任务，覆盖指令遵循、推理、安全等九大核心能力维度，共汇集765个评估实例。每个实例均包含系统提示、输入文本、参考答案及一套精细化的五级评分准则，这些准则针对每个实例量身定制，确保了评估的针对性与一致性。数据集的构建过程整合了人类专家与先进大语言模型的双重评估智慧，旨在为生成式语言模型提供一套全面而细致的性能度量标准。

特点

BiGGen-Bench的显著特点在于其评估的精细度与广度。数据集摒弃了单一笼统的评分标准，为每个测试实例配备了独特的评分细则，实现了对模型生成文本质量的多维度、差异化度量。其涵盖的九大能力范畴，从基础的指令理解到高阶的心理理论及工具使用，系统性地勾勒出语言模型的综合能力图谱。此外，数据集明确区分预训练模型与指令微调模型的评估场景，并支持基于大语言模型的自动化评估与人工评估两种模式，为研究者提供了灵活而可靠的测评框架。

使用方法

使用BiGGen-Bench进行模型评估，需遵循其设定的科学流程。研究者首先需利用待评估模型，根据数据集中提供的系统提示和输入文本生成相应回答。随后，将生成回答与数据集中的参考答案一同，提交至指定的基于大语言模型的评估器（如GPT-4）或由人类评估者，依据实例附带的详细评分准则进行打分。该数据集严格限定于评估用途，不应用于模型训练。通过这一流程，研究者能够获得模型在各项细粒度能力上的量化表现，从而进行跨模型的系统性比较与深入分析。

背景与挑战

背景概述

在大型语言模型（LLM）能力评估领域，传统基准测试往往侧重于单一维度的粗粒度评分，难以全面捕捉模型在复杂、开放式文本生成任务中的细微表现。为应对这一局限，由Prometheus-Eval团队于2024年创建的BiGGen-Bench基准应运而生。该数据集旨在对语言模型进行精细化的多维度评估，其核心研究问题在于如何系统性地衡量模型在指令遵循、推理、规划、安全等九大关键能力上的真实水平。通过引入实例特定的评分准则和结合人类与LLM评估者的混合评估方法，BiGGen-Bench为模型能力的诊断与比较提供了更为严谨和全面的框架，对推动生成式人工智能的可靠评估具有重要影响力。

当前挑战

BiGGen-Bench致力于解决语言模型在自由文本生成任务中能力评估的挑战，其核心在于如何设计一个既广泛覆盖多种认知能力（如心智理论、多语言理解），又能进行细粒度、可解释性评分的评估体系。这要求评分准则必须针对每个测试实例量身定制，以准确区分模型在细微能力上的差异，而非依赖统一、模糊的标准。在数据集构建过程中，主要挑战来源于如何为总计77项任务中的765个实例设计高质量、无偏见的特定评分准则，并确保这些准则在不同评估者（无论是人类还是LLM）间保持评分的一致性。此外，平衡评估的广度与深度，确保九大能力类别下的任务既具代表性又不失挑战性，同样是构建过程中的关键难题。

常用场景

经典使用场景

在自然语言处理领域，BiGGen-Bench作为一项精细化的生成式评估基准，其经典使用场景集中于对大语言模型进行多维度能力测评。该数据集通过涵盖指令遵循、推理、规划等九大核心能力类别，并设计77项具体任务，为研究者提供了系统化的评估框架。借助实例特定的评分量规，它能够深入剖析模型在自由文本生成中的表现，从而揭示模型在复杂语境下的优势与局限，成为推动生成模型迭代优化的重要工具。

解决学术问题

BiGGen-Bench致力于解决大语言模型评估中普遍存在的粗粒度、主观性强等学术难题。通过引入基于实例的细粒度量规，该数据集实现了对模型能力的精准量化，有效缓解了传统评估方法在一致性、可复现性方面的不足。其意义在于构建了一个原则性的评估体系，不仅促进了模型性能的跨任务比较，还为理解模型内在工作机制提供了实证基础，对推动生成式人工智能的科学发展产生了深远影响。

衍生相关工作

围绕BiGGen-Bench，学术界衍生出一系列经典研究工作，主要集中在评估方法的创新与模型能力的深入探索。例如，基于其细粒度量规设计的自动化评估框架，促进了评估代理模型的发展；同时，该基准启发了对模型在理论心智、规划等高级认知任务上的系统性研究。这些工作共同拓展了语言模型评估的边界，为后续基准的构建与模型能力的理论分析提供了重要范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集