prometheus-eval/Preference-Bench

Name: prometheus-eval/Preference-Bench
Creator: prometheus-eval
Published: 2024-04-06 00:21:05
License: 暂无描述

Hugging Face2024-04-06 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/prometheus-eval/Preference-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: orig_criteria dtype: string - name: orig_feedback_A dtype: string - name: orig_feedback_B dtype: string - name: orig_instruction dtype: string - name: orig_reference_answer dtype: string - name: orig_response_A dtype: string - name: orig_response_B dtype: string - name: orig_score_A dtype: string - name: orig_score_B dtype: string - name: orig_preference dtype: string - name: instruction dtype: string - name: output dtype: string - name: input dtype: string - name: orig_feedback dtype: string - name: messages list: - name: content dtype: string - name: role dtype: string - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 43873852 num_examples: 1998 download_size: 0 dataset_size: 43873852 configs: - config_name: default data_files: - split: train path: data/train-* --- # Dataset Card for "Promixtheus-Relative-Bench" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征字段： - 名称：原始评判准则（orig_criteria），数据类型：字符串 - 名称：原始反馈A（orig_feedback_A），数据类型：字符串 - 名称：原始反馈B（orig_feedback_B），数据类型：字符串 - 名称：原始指令（orig_instruction），数据类型：字符串 - 名称：原始参考答案（orig_reference_answer），数据类型：字符串 - 名称：原始响应A（orig_response_A），数据类型：字符串 - 名称：原始响应B（orig_response_B），数据类型：字符串 - 名称：原始评分A（orig_score_A），数据类型：字符串 - 名称：原始评分B（orig_score_B），数据类型：字符串 - 名称：原始偏好（orig_preference），数据类型：字符串 - 名称：指令（instruction），数据类型：字符串 - 名称：输出（output），数据类型：字符串 - 名称：输入（input），数据类型：字符串 - 名称：原始反馈（orig_feedback），数据类型：字符串 - 名称：对话消息（messages），数据类型：列表，列表元素包含： - 内容（content），数据类型：字符串 - 角色（role），数据类型：字符串 - 名称：索引列0（__index_level_0__），数据类型：64位整数数据集划分： - 划分名称：训练集（train），字节大小：43873852，样本数量：1998 下载大小：0，数据集总大小：43873852 配置项： - 配置名称：默认配置（default），数据文件： - 数据集划分：训练集（train），文件路径：data/train-* --- # "Promixtheus-Relative-Bench"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

prometheus-eval

原始信息汇总

数据集概述

数据集信息

特征

orig_criteria: 字符串类型
orig_feedback_A: 字符串类型
orig_feedback_B: 字符串类型
orig_instruction: 字符串类型
orig_reference_answer: 字符串类型
orig_response_A: 字符串类型
orig_response_B: 字符串类型
orig_score_A: 字符串类型
orig_score_B: 字符串类型
orig_preference: 字符串类型
instruction: 字符串类型
output: 字符串类型
input: 字符串类型
orig_feedback: 字符串类型
messages: 列表类型
- content: 字符串类型
- role: 字符串类型
index_level_0: 整数类型

分割

train:
- 字节数: 43873852
- 样本数: 1998

大小

下载大小: 0
数据集大小: 43873852

配置

default:
- 数据文件:
  - train: 路径为 data/train-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，偏好学习已成为评估和优化大语言模型的关键方向。Prometheus-eval/Preference-Bench数据集的构建过程体现了严谨的学术设计理念，其核心源于对模型生成响应的系统性比较。该数据集通过整合原始指令、参考答案、成对模型响应及人工标注的偏好标签，构建了一个结构化的对比评估框架。数据采集环节注重多样性与代表性，涵盖了不同任务类型与评分维度，确保了评估基准的全面性与可靠性。

特点

该数据集在偏好评估领域展现出鲜明的技术特色，其数据结构设计精妙，同时包含指令、多模型响应、人工反馈及量化评分等多维度信息。特征字段如orig_criteria、orig_preference等，为深入分析模型行为提供了细粒度支持。数据集规模适中，约包含两千个训练样本，在保证数据质量的同时，兼顾了计算效率。这种多维、可追溯的数据组织形式，为研究社区进行可靠的模型对比与偏好对齐研究奠定了坚实基础。

使用方法

对于致力于模型评估与偏好学习的研究者而言，该数据集提供了标准化的使用流程。用户可通过加载HuggingFace数据集库直接访问，利用其结构化的特征字段进行模型响应对比分析。典型应用包括训练或评估奖励模型、进行偏好对齐微调，或作为基准测试集衡量模型的生成质量与人类偏好的一致性。数据集中预设的instruction、messages等字段，能够无缝对接主流对话模型训练框架，极大简化了实验流程。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，如何系统评估其生成内容的质量与偏好成为关键研究议题。Preference-Bench数据集由prometheus-eval团队构建，旨在为语言模型的偏好对齐提供标准化评估基准。该数据集聚焦于模型响应的人类反馈学习，通过结构化收集指令、多维度反馈及成对比较数据，为研究者探究模型在复杂对话场景中的表现差异奠定了数据基础。其设计不仅推动了基于人类反馈的强化学习技术发展，也为模型安全性与可控性评估提供了重要工具。

当前挑战

该数据集致力于解决语言模型偏好对齐中的核心挑战，即如何量化评估模型生成内容在安全性、有用性及人类价值观一致性等方面的细微差异。构建过程中，数据收集面临高质量人类反馈标注的稀缺性，需平衡主观判断与客观标准；同时，成对比较的设计需确保对比项在多样性与可比性间取得平衡，避免偏差引入。此外，跨任务与跨领域的泛化能力评估，要求数据集覆盖广泛场景，这对数据规模与结构设计提出了较高要求。

常用场景

经典使用场景

在大型语言模型评估领域，Preference-Bench数据集为偏好学习提供了关键资源。该数据集通过收集成对的模型响应、人工反馈及评分，构建了精细的偏好标注框架，使得研究者能够系统地训练和评估模型在遵循人类偏好方面的能力。其经典使用场景集中于对齐研究，即通过监督微调或强化学习从人类反馈中学习，以优化模型生成内容的安全性、有用性和一致性，为开发更符合人类价值观的智能系统奠定基础。

实际应用

在实际应用中，Preference-Bench数据集被广泛用于优化对话系统、内容生成工具和智能助手。例如，企业可借助该数据集训练客服机器人，使其回应更贴合用户期望；内容平台能利用它调整生成模型，以减少有害或不准确信息的输出。通过集成人类偏好数据，这些系统能够动态适应多样化的用户需求，提升交互质量和用户体验，体现了人工智能技术向人性化、负责任方向演进的重要实践。

衍生相关工作

围绕Preference-Bench数据集，已衍生出多项经典研究工作。例如，基于其构建的奖励模型被用于训练先进的对话代理，如ChatGPT的迭代优化；同时，该数据集也支撑了对齐算法的比较研究，如直接偏好优化方法的性能验证。此外，它启发了更细粒度的偏好基准创建，推动了评估协议的统一，为学术界和工业界提供了可复现的实验基础，持续影响着人工智能安全与伦理领域的发展轨迹。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集