pharaouk/Feedback-Collection
收藏Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/pharaouk/Feedback-Collection
下载链接
链接失效反馈官方服务:
资源简介:
Feedback Collection数据集旨在通过微调GPT-4生成的反馈和包含适当的参考材料(参考答案和评分标准),来诱导开源语言模型具备细粒度的评估能力。数据集包含1K个评分标准、20K个指令和参考答案、100K个响应和反馈(每个评分1-5范围内有20K个)。实验结果表明,通过在Feedback Collection上微调Llama-2-Chat得到的Prometheus模型可以在绝对评分和排名评分设置中作为评估器使用。数据集的结构包括指令、输出、原始指令、原始响应、原始参考答案、原始评分标准、各评分描述、原始反馈和原始评分。数据集的训练和评估使用了特定的提示格式。数据集的语言为英语,数据量在10K到100K之间。
Feedback Collection数据集旨在通过微调GPT-4生成的反馈和包含适当的参考材料(参考答案和评分标准),来诱导开源语言模型具备细粒度的评估能力。数据集包含1K个评分标准、20K个指令和参考答案、100K个响应和反馈(每个评分1-5范围内有20K个)。实验结果表明,通过在Feedback Collection上微调Llama-2-Chat得到的Prometheus模型可以在绝对评分和排名评分设置中作为评估器使用。数据集的结构包括指令、输出、原始指令、原始响应、原始参考答案、原始评分标准、各评分描述、原始反馈和原始评分。数据集的训练和评估使用了特定的提示格式。数据集的语言为英语,数据量在10K到100K之间。
提供机构:
pharaouk
原始信息汇总
数据集概述
名称: Feedback Collection
目的: 旨在提升语言模型对长篇回答的细粒度评估能力。
内容:
- 包含1,000个评分标准
- 20,000条指导和参考答案
- 100,000条回答和反馈(每个评分1-5分,各20,000条)
实验结果: 通过在Feedback Collection上微调Llama-2-Chat得到的模型Prometheus,能够在绝对评分和排名评分设置中有效作为评估者。
语言
英语
数据集结构
- instruction: 包含评估指令、待评估的回答、参考答案和评分标准。
- output: 包含反馈和评分决策,以
[RESULT]分隔。 - orig_instruction: 待评估的指令。
- orig_response: 待评估的回答。
- orig_reference_answer: 对应
orig_instruction的参考答案。 - orig_criteria: 评分标准。
- orig_score1_description 至 orig_score5_description: 描述何时给予1至5分的评分。
- orig_feedback: 对
orig_response的反馈。 - orig_score: 给予
orig_response的评分,范围为1至5。
数据分割
| 名称 | 训练 |
|---|---|
| Feedback-Collection | 99,952 |
许可证
CC-BY-4.0



