five

pharaouk/Feedback-Collection

收藏
Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pharaouk/Feedback-Collection
下载链接
链接失效反馈
官方服务:
资源简介:
Feedback Collection数据集旨在通过微调GPT-4生成的反馈和包含适当的参考材料(参考答案和评分标准),来诱导开源语言模型具备细粒度的评估能力。数据集包含1K个评分标准、20K个指令和参考答案、100K个响应和反馈(每个评分1-5范围内有20K个)。实验结果表明,通过在Feedback Collection上微调Llama-2-Chat得到的Prometheus模型可以在绝对评分和排名评分设置中作为评估器使用。数据集的结构包括指令、输出、原始指令、原始响应、原始参考答案、原始评分标准、各评分描述、原始反馈和原始评分。数据集的训练和评估使用了特定的提示格式。数据集的语言为英语,数据量在10K到100K之间。

Feedback Collection数据集旨在通过微调GPT-4生成的反馈和包含适当的参考材料(参考答案和评分标准),来诱导开源语言模型具备细粒度的评估能力。数据集包含1K个评分标准、20K个指令和参考答案、100K个响应和反馈(每个评分1-5范围内有20K个)。实验结果表明,通过在Feedback Collection上微调Llama-2-Chat得到的Prometheus模型可以在绝对评分和排名评分设置中作为评估器使用。数据集的结构包括指令、输出、原始指令、原始响应、原始参考答案、原始评分标准、各评分描述、原始反馈和原始评分。数据集的训练和评估使用了特定的提示格式。数据集的语言为英语,数据量在10K到100K之间。
提供机构:
pharaouk
原始信息汇总

数据集概述

名称: Feedback Collection

目的: 旨在提升语言模型对长篇回答的细粒度评估能力。

内容:

  • 包含1,000个评分标准
  • 20,000条指导和参考答案
  • 100,000条回答和反馈(每个评分1-5分,各20,000条)

实验结果: 通过在Feedback Collection上微调Llama-2-Chat得到的模型Prometheus,能够在绝对评分和排名评分设置中有效作为评估者。

语言

英语

数据集结构

  • instruction: 包含评估指令、待评估的回答、参考答案和评分标准。
  • output: 包含反馈和评分决策,以[RESULT]分隔。
  • orig_instruction: 待评估的指令。
  • orig_response: 待评估的回答。
  • orig_reference_answer: 对应orig_instruction的参考答案。
  • orig_criteria: 评分标准。
  • orig_score1_descriptionorig_score5_description: 描述何时给予1至5分的评分。
  • orig_feedback: 对orig_response的反馈。
  • orig_score: 给予orig_response的评分,范围为1至5。

数据分割

名称 训练
Feedback-Collection 99,952

许可证

CC-BY-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作