lmarena-ai/PPE-IFEval-Best-of-K
收藏Hugging Face2024-10-22 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/lmarena-ai/PPE-IFEval-Best-of-K
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: question_id
dtype: string
- name: ifeval_prompt
dtype: string
- name: key
dtype: int64
- name: instruction_id_list
sequence: string
- name: kwargs
list:
- name: capital_frequency
dtype: float64
- name: capital_relation
dtype: string
- name: end_phrase
dtype: string
- name: first_word
dtype: string
- name: forbidden_words
sequence: string
- name: frequency
dtype: float64
- name: keyword
dtype: string
- name: keywords
sequence: string
- name: language
dtype: string
- name: let_frequency
dtype: float64
- name: let_relation
dtype: string
- name: letter
dtype: string
- name: nth_paragraph
dtype: float64
- name: num_bullets
dtype: float64
- name: num_highlights
dtype: float64
- name: num_paragraphs
dtype: float64
- name: num_placeholders
dtype: float64
- name: num_sections
dtype: float64
- name: num_sentences
dtype: float64
- name: num_words
dtype: float64
- name: postscript_marker
dtype: string
- name: prompt_to_repeat
dtype: string
- name: relation
dtype: string
- name: section_spliter
dtype: string
- name: model_name
dtype: string
- name: score_data
list:
- name: inst_level_loose_acc
sequence: bool
- name: inst_level_strict_acc
sequence: bool
- name: prompt_level_loose_acc
dtype: bool
- name: prompt_level_strict_acc
dtype: bool
- name: scores
sequence: bool
- name: mean_score
dtype: float64
- name: prompt
dtype: string
- name: response_1
dtype: string
- name: response_2
dtype: string
- name: response_3
dtype: string
- name: response_4
dtype: string
- name: response_5
dtype: string
- name: response_6
dtype: string
- name: response_7
dtype: string
- name: response_8
dtype: string
- name: response_9
dtype: string
- name: response_10
dtype: string
- name: response_11
dtype: string
- name: response_12
dtype: string
- name: response_13
dtype: string
- name: response_14
dtype: string
- name: response_15
dtype: string
- name: response_16
dtype: string
- name: response_17
dtype: string
- name: response_18
dtype: string
- name: response_19
dtype: string
- name: response_20
dtype: string
- name: response_21
dtype: string
- name: response_22
dtype: string
- name: response_23
dtype: string
- name: response_24
dtype: string
- name: response_25
dtype: string
- name: response_26
dtype: string
- name: response_27
dtype: string
- name: response_28
dtype: string
- name: response_29
dtype: string
- name: response_30
dtype: string
- name: response_31
dtype: string
- name: response_32
dtype: string
- name: conflict_pairs
sequence:
sequence: int64
- name: sampled_conflict_pairs
sequence:
sequence: int64
splits:
- name: train
num_bytes: 24613605
num_examples: 512
download_size: 13997516
dataset_size: 24613605
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Overview
This contains the IFEval correctness preference evaluation set for Preference Proxy Evaluations.
The prompts are sampled from [IFEval](https://huggingface.co/datasets/google/IFEval).
This dataset is meant for benchmarking and evaluation, not for training.
[Paper](https://arxiv.org/abs/2410.14872)
[Code](https://github.com/lmarena/PPE)
# License
User prompts are licensed under Apache-2.0, and model outputs are governed by the terms of use set by the respective model providers.
# Citation
```
@misc{frick2024evaluaterewardmodelsrlhf,
title={How to Evaluate Reward Models for RLHF},
author={Evan Frick and Tianle Li and Connor Chen and Wei-Lin Chiang and Anastasios N. Angelopoulos and Jiantao Jiao and Banghua Zhu and Joseph E. Gonzalez and Ion Stoica},
year={2024},
eprint={2410.14872},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2410.14872},
}
```
数据集信息:
特征字段:
- 字段名:问题ID,数据类型:字符串
- 字段名:IFEval提示(IFEval),数据类型:字符串
- 字段名:键,数据类型:64位整数
- 字段名:指令ID列表,序列类型:字符串
- 字段名:参数字典(kwargs),列表类型:
- 字段名:大写字母频率,数据类型:64位浮点数
- 字段名:大写字母关联规则,数据类型:字符串
- 字段名:结尾短语,数据类型:字符串
- 字段名:首单词,数据类型:字符串
- 字段名:禁用词列表,序列类型:字符串
- 字段名:出现频率,数据类型:64位浮点数
- 字段名:关键词,数据类型:字符串
- 字段名:关键词列表,序列类型:字符串
- 字段名:语言,数据类型:字符串
- 字段名:字母频率,数据类型:64位浮点数
- 字段名:字母关联规则,数据类型:字符串
- 字段名:指定字母,数据类型:字符串
- 字段名:段落序号,数据类型:64位浮点数
- 字段名:项目符号数量,数据类型:64位浮点数
- 字段名:高亮内容数量,数据类型:64位浮点数
- 字段名:段落总数,数据类型:64位浮点数
- 字段名:占位符数量,数据类型:64位浮点数
- 字段名:章节总数,数据类型:64位浮点数
- 字段名:句子总数,数据类型:64位浮点数
- 字段名:单词总数,数据类型:64位浮点数
- 字段名:后记标记,数据类型:字符串
- 字段名:需重复的提示文本,数据类型:字符串
- 字段名:关联规则,数据类型:字符串
- 字段名:章节分隔符,数据类型:字符串
- 字段名:模型名称,数据类型:字符串
- 字段名:得分数据,列表类型:
- 字段名:实例级宽松准确率,序列类型:布尔值
- 字段名:实例级严格准确率,序列类型:布尔值
- 字段名:提示级宽松准确率,数据类型:布尔值
- 字段名:提示级严格准确率,数据类型:布尔值
- 字段名:得分列表,序列类型:布尔值
- 字段名:平均得分,数据类型:64位浮点数
- 字段名:提示文本,数据类型:字符串
- 字段名:回复1,数据类型:字符串
- 字段名:回复2,数据类型:字符串
- 字段名:回复3,数据类型:字符串
- 字段名:回复4,数据类型:字符串
- 字段名:回复5,数据类型:字符串
- 字段名:回复6,数据类型:字符串
- 字段名:回复7,数据类型:字符串
- 字段名:回复8,数据类型:字符串
- 字段名:回复9,数据类型:字符串
- 字段名:回复10,数据类型:字符串
- 字段名:回复11,数据类型:字符串
- 字段名:回复12,数据类型:字符串
- 字段名:回复13,数据类型:字符串
- 字段名:回复14,数据类型:字符串
- 字段名:回复15,数据类型:字符串
- 字段名:回复16,数据类型:字符串
- 字段名:回复17,数据类型:字符串
- 字段名:回复18,数据类型:字符串
- 字段名:回复19,数据类型:字符串
- 字段名:回复20,数据类型:字符串
- 字段名:回复21,数据类型:字符串
- 字段名:回复22,数据类型:字符串
- 字段名:回复23,数据类型:字符串
- 字段名:回复24,数据类型:字符串
- 字段名:回复25,数据类型:字符串
- 字段名:回复26,数据类型:字符串
- 字段名:回复27,数据类型:字符串
- 字段名:回复28,数据类型:字符串
- 字段名:回复29,数据类型:字符串
- 字段名:回复30,数据类型:字符串
- 字段名:回复31,数据类型:字符串
- 字段名:回复32,数据类型:字符串
- 字段名:冲突对,序列类型:二维64位整数序列
- 字段名:采样冲突对,序列类型:二维64位整数序列
数据划分:
- 划分名称:训练集,占用字节数:24613605,样本数量:512
下载大小:13997516
数据集总大小:24613605
配置项:
- 配置名称:默认配置,数据文件:
- 划分:训练集,路径:data/train-*
# 数据集概述
本数据集为偏好代理评估(Preference Proxy Evaluations)提供IFEval正确性偏好评估集。
本数据集的提示文本均采样自[IFEval](https://huggingface.co/datasets/google/IFEval)。
本数据集仅用于基准测试与模型评估,不可用于模型训练。
[研究论文](https://arxiv.org/abs/2410.14872)
[代码仓库](https://github.com/lmarena/PPE)
# 授权协议
用户提示文本采用Apache-2.0协议授权,模型生成的输出需遵循对应模型服务商的使用条款。
# 引用
@misc{frick2024evaluaterewardmodelsrlhf,
title={如何评估面向人类反馈强化学习(RLHF)的奖励模型},
author={Evan Frick and Tianle Li and Connor Chen and Wei-Lin Chiang and Anastasios N. Angelopoulos and Jiantao Jiao and Banghua Zhu and Joseph E. Gonzalez and Ion Stoica},
year={2024},
eprint={2410.14872},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2410.14872},
}
提供机构:
lmarena-ai



