five

lmarena-ai/PPE-IFEval-Best-of-K

收藏
Hugging Face2024-10-22 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/lmarena-ai/PPE-IFEval-Best-of-K
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: question_id dtype: string - name: ifeval_prompt dtype: string - name: key dtype: int64 - name: instruction_id_list sequence: string - name: kwargs list: - name: capital_frequency dtype: float64 - name: capital_relation dtype: string - name: end_phrase dtype: string - name: first_word dtype: string - name: forbidden_words sequence: string - name: frequency dtype: float64 - name: keyword dtype: string - name: keywords sequence: string - name: language dtype: string - name: let_frequency dtype: float64 - name: let_relation dtype: string - name: letter dtype: string - name: nth_paragraph dtype: float64 - name: num_bullets dtype: float64 - name: num_highlights dtype: float64 - name: num_paragraphs dtype: float64 - name: num_placeholders dtype: float64 - name: num_sections dtype: float64 - name: num_sentences dtype: float64 - name: num_words dtype: float64 - name: postscript_marker dtype: string - name: prompt_to_repeat dtype: string - name: relation dtype: string - name: section_spliter dtype: string - name: model_name dtype: string - name: score_data list: - name: inst_level_loose_acc sequence: bool - name: inst_level_strict_acc sequence: bool - name: prompt_level_loose_acc dtype: bool - name: prompt_level_strict_acc dtype: bool - name: scores sequence: bool - name: mean_score dtype: float64 - name: prompt dtype: string - name: response_1 dtype: string - name: response_2 dtype: string - name: response_3 dtype: string - name: response_4 dtype: string - name: response_5 dtype: string - name: response_6 dtype: string - name: response_7 dtype: string - name: response_8 dtype: string - name: response_9 dtype: string - name: response_10 dtype: string - name: response_11 dtype: string - name: response_12 dtype: string - name: response_13 dtype: string - name: response_14 dtype: string - name: response_15 dtype: string - name: response_16 dtype: string - name: response_17 dtype: string - name: response_18 dtype: string - name: response_19 dtype: string - name: response_20 dtype: string - name: response_21 dtype: string - name: response_22 dtype: string - name: response_23 dtype: string - name: response_24 dtype: string - name: response_25 dtype: string - name: response_26 dtype: string - name: response_27 dtype: string - name: response_28 dtype: string - name: response_29 dtype: string - name: response_30 dtype: string - name: response_31 dtype: string - name: response_32 dtype: string - name: conflict_pairs sequence: sequence: int64 - name: sampled_conflict_pairs sequence: sequence: int64 splits: - name: train num_bytes: 24613605 num_examples: 512 download_size: 13997516 dataset_size: 24613605 configs: - config_name: default data_files: - split: train path: data/train-* --- # Overview This contains the IFEval correctness preference evaluation set for Preference Proxy Evaluations. The prompts are sampled from [IFEval](https://huggingface.co/datasets/google/IFEval). This dataset is meant for benchmarking and evaluation, not for training. [Paper](https://arxiv.org/abs/2410.14872) [Code](https://github.com/lmarena/PPE) # License User prompts are licensed under Apache-2.0, and model outputs are governed by the terms of use set by the respective model providers. # Citation ``` @misc{frick2024evaluaterewardmodelsrlhf, title={How to Evaluate Reward Models for RLHF}, author={Evan Frick and Tianle Li and Connor Chen and Wei-Lin Chiang and Anastasios N. Angelopoulos and Jiantao Jiao and Banghua Zhu and Joseph E. Gonzalez and Ion Stoica}, year={2024}, eprint={2410.14872}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2410.14872}, } ```

数据集信息: 特征字段: - 字段名:问题ID,数据类型:字符串 - 字段名:IFEval提示(IFEval),数据类型:字符串 - 字段名:键,数据类型:64位整数 - 字段名:指令ID列表,序列类型:字符串 - 字段名:参数字典(kwargs),列表类型: - 字段名:大写字母频率,数据类型:64位浮点数 - 字段名:大写字母关联规则,数据类型:字符串 - 字段名:结尾短语,数据类型:字符串 - 字段名:首单词,数据类型:字符串 - 字段名:禁用词列表,序列类型:字符串 - 字段名:出现频率,数据类型:64位浮点数 - 字段名:关键词,数据类型:字符串 - 字段名:关键词列表,序列类型:字符串 - 字段名:语言,数据类型:字符串 - 字段名:字母频率,数据类型:64位浮点数 - 字段名:字母关联规则,数据类型:字符串 - 字段名:指定字母,数据类型:字符串 - 字段名:段落序号,数据类型:64位浮点数 - 字段名:项目符号数量,数据类型:64位浮点数 - 字段名:高亮内容数量,数据类型:64位浮点数 - 字段名:段落总数,数据类型:64位浮点数 - 字段名:占位符数量,数据类型:64位浮点数 - 字段名:章节总数,数据类型:64位浮点数 - 字段名:句子总数,数据类型:64位浮点数 - 字段名:单词总数,数据类型:64位浮点数 - 字段名:后记标记,数据类型:字符串 - 字段名:需重复的提示文本,数据类型:字符串 - 字段名:关联规则,数据类型:字符串 - 字段名:章节分隔符,数据类型:字符串 - 字段名:模型名称,数据类型:字符串 - 字段名:得分数据,列表类型: - 字段名:实例级宽松准确率,序列类型:布尔值 - 字段名:实例级严格准确率,序列类型:布尔值 - 字段名:提示级宽松准确率,数据类型:布尔值 - 字段名:提示级严格准确率,数据类型:布尔值 - 字段名:得分列表,序列类型:布尔值 - 字段名:平均得分,数据类型:64位浮点数 - 字段名:提示文本,数据类型:字符串 - 字段名:回复1,数据类型:字符串 - 字段名:回复2,数据类型:字符串 - 字段名:回复3,数据类型:字符串 - 字段名:回复4,数据类型:字符串 - 字段名:回复5,数据类型:字符串 - 字段名:回复6,数据类型:字符串 - 字段名:回复7,数据类型:字符串 - 字段名:回复8,数据类型:字符串 - 字段名:回复9,数据类型:字符串 - 字段名:回复10,数据类型:字符串 - 字段名:回复11,数据类型:字符串 - 字段名:回复12,数据类型:字符串 - 字段名:回复13,数据类型:字符串 - 字段名:回复14,数据类型:字符串 - 字段名:回复15,数据类型:字符串 - 字段名:回复16,数据类型:字符串 - 字段名:回复17,数据类型:字符串 - 字段名:回复18,数据类型:字符串 - 字段名:回复19,数据类型:字符串 - 字段名:回复20,数据类型:字符串 - 字段名:回复21,数据类型:字符串 - 字段名:回复22,数据类型:字符串 - 字段名:回复23,数据类型:字符串 - 字段名:回复24,数据类型:字符串 - 字段名:回复25,数据类型:字符串 - 字段名:回复26,数据类型:字符串 - 字段名:回复27,数据类型:字符串 - 字段名:回复28,数据类型:字符串 - 字段名:回复29,数据类型:字符串 - 字段名:回复30,数据类型:字符串 - 字段名:回复31,数据类型:字符串 - 字段名:回复32,数据类型:字符串 - 字段名:冲突对,序列类型:二维64位整数序列 - 字段名:采样冲突对,序列类型:二维64位整数序列 数据划分: - 划分名称:训练集,占用字节数:24613605,样本数量:512 下载大小:13997516 数据集总大小:24613605 配置项: - 配置名称:默认配置,数据文件: - 划分:训练集,路径:data/train-* # 数据集概述 本数据集为偏好代理评估(Preference Proxy Evaluations)提供IFEval正确性偏好评估集。 本数据集的提示文本均采样自[IFEval](https://huggingface.co/datasets/google/IFEval)。 本数据集仅用于基准测试与模型评估,不可用于模型训练。 [研究论文](https://arxiv.org/abs/2410.14872) [代码仓库](https://github.com/lmarena/PPE) # 授权协议 用户提示文本采用Apache-2.0协议授权,模型生成的输出需遵循对应模型服务商的使用条款。 # 引用 @misc{frick2024evaluaterewardmodelsrlhf, title={如何评估面向人类反馈强化学习(RLHF)的奖励模型}, author={Evan Frick and Tianle Li and Connor Chen and Wei-Lin Chiang and Anastasios N. Angelopoulos and Jiantao Jiao and Banghua Zhu and Joseph E. Gonzalez and Ion Stoica}, year={2024}, eprint={2410.14872}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2410.14872}, }
提供机构:
lmarena-ai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作