five

prometheus-eval/Preference-Collection

收藏
Hugging Face2024-05-03 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/prometheus-eval/Preference-Collection
下载链接
链接失效反馈
官方服务:
资源简介:
Preference Collection数据集旨在通过微调GPT-4生成的反馈并结合参考材料(参考答案和评分标准),来提升开源语言模型在长文本响应评估中的能力。数据集包含1K评分标准、20K指令和参考答案、200K响应对及反馈(每个A或B各100K)。实验结果表明,通过在该数据集上微调得到的Prometheus模型能够在绝对评分和排名评分两种设置下作为评估器使用。数据集的提示格式和训练方法也在描述中进行了详细说明。
提供机构:
prometheus-eval
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Preference Collection
  • 许可证: cc-by-4.0
  • 任务类别:
    • text-generation
    • text-classification
  • 语言: English
  • 数据集大小: 100K<n<1M
  • 配置:
    • config_name: default
    • data_files:
      • split: train path: data/train-*

数据集描述

  • 设计目的: 用于提升语言模型对长篇回复的细粒度评估能力。
  • 主要发现: 通过使用GPT-4生成的反馈进行微调,并结合适当的参考材料(参考答案和评分标准),可以有效提升开源语言模型的评估能力。
  • 数据内容:
    • 1K评分标准
    • 20K指令和参考答案
    • 200K回复对和反馈(每对"A"或"B"各100K)

实验结果

  • 模型: Prometheus,通过在Feedback Collection上微调Llama-2-Chat或Mistral-7B-Instruct获得。
  • 功能: 能够作为评估者在绝对评分和排名评分设置中使用。

语言和提示格式

  • 语言: English
  • 提示格式:
    • 输入格式: 包含任务描述、待评估的回复、评分标准。
    • 输出格式: 反馈和评分结果。

数据分割

  • 训练集: 199,760条记录

引用信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作