allenai/preference-test-sets
收藏Hugging Face2024-03-14 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/allenai/preference-test-sets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于评估奖励模型准确性的测试集,包含了多个子集,如Anthropic HH、Anthropic HHH Alignment、Learning to summarize、PKU SafeRLHF、Stanford Human Preferences (SHP)和LMSYS Human MT Bench Pairs等。每个子集都有特定的用途和格式,例如Anthropic HH用于评估帮助性和无害性,Learning to summarize用于总结任务。数据集的schema包括prompt、chosen、rejected和subset等字段,分别表示指令、优选回答、拒绝回答和子集信息。数据集可以通过HuggingFace的datasets库加载,并且提供了引用信息。
提供机构:
allenai
原始信息汇总
数据集概述
数据集目的
本数据集旨在为奖励模型准确性验证提供测试集,通过从流行的偏好数据集中精心挑选并整理成统一的架构,以便于加载和评估。
数据集特点
- 包含多个流行偏好数据集的测试集。
- 采用统一架构,便于数据加载和评估。



