prometheus-eval/Preference-Collection

收藏

Hugging Face2024-05-03 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/prometheus-eval/Preference-Collection

下载链接

链接失效反馈

官方服务：

资源简介：

Preference Collection数据集旨在通过微调GPT-4生成的反馈并结合参考材料（参考答案和评分标准），来提升开源语言模型在长文本响应评估中的能力。数据集包含1K评分标准、20K指令和参考答案、200K响应对及反馈（每个A或B各100K）。实验结果表明，通过在该数据集上微调得到的Prometheus模型能够在绝对评分和排名评分两种设置下作为评估器使用。数据集的提示格式和训练方法也在描述中进行了详细说明。

提供机构：

prometheus-eval

原始信息汇总

数据集概述

基本信息

数据集名称: Preference Collection
许可证: cc-by-4.0
任务类别:
- text-generation
- text-classification
语言: English
数据集大小: 100K<n<1M
配置:
- config_name: default
- data_files:
  - split: train path: data/train-*

数据集描述

设计目的: 用于提升语言模型对长篇回复的细粒度评估能力。
主要发现: 通过使用GPT-4生成的反馈进行微调，并结合适当的参考材料（参考答案和评分标准），可以有效提升开源语言模型的评估能力。
数据内容:
- 1K评分标准
- 20K指令和参考答案
- 200K回复对和反馈（每对"A"或"B"各100K）

实验结果

模型: Prometheus，通过在Feedback Collection上微调Llama-2-Chat或Mistral-7B-Instruct获得。
功能: 能够作为评估者在绝对评分和排名评分设置中使用。

语言和提示格式

语言: English
提示格式:
- 输入格式: 包含任务描述、待评估的回复、评分标准。
- 输出格式: 反馈和评分结果。

数据分割

训练集: 199,760条记录

引用信息

论文:
- Prometheus: Inducing Fine-grained Evaluation Capability in Language Models
- Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models
作者: Seungone Kim 等
年份: 2023, 2024
分类: cs.CL

5,000+

优质数据集

54 个

任务类型

进入经典数据集

© 2023-2025 上海数据发展科技有限责任公司版权所有

沪ICP备17003045号-15 沪公网安备31010402336585号

二维码

社区交流群

面向社区/商业的数据集话题

二维码

科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作