M4-ai/prm_dpo_pairs
收藏Hugging Face2024-07-01 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/M4-ai/prm_dpo_pairs
下载链接
链接失效反馈官方服务:
资源简介:
prm_dpo_pairs是PRM800K数据集的优化版本,专门用于使用DPO(直接偏好优化)技术微调语言模型。数据集包含提示和完成对,并标注了原始语言模型偏好的完成。数据集结构包括提示、选择的完成、拒绝的完成以及一个布尔值指示选择的完成是否正确。数据集仅包含一个训练分割,包含93,929个示例。数据集的使用目的是通过提供完成对和原始模型的偏好来训练模型以更好地与期望的输出对齐。由于数据集是使用语言模型生成的,完成可能在某些情况下不正确,因此数据集包含了is_chosen_correct列来指示选择的完成是否正确。数据集发布在Apache-2.0许可证下。
prm_dpo_pairs is an optimized variant of the PRM800K dataset, specifically designed for fine-tuning language models using DPO (Direct Preference Optimization). The dataset consists of prompt-completion pairs, annotated with the completions preferred by the original language model. Its structure includes prompts, chosen completions, rejected completions, and a boolean flag indicating whether the chosen completion is correct. The dataset only contains one training split, with 93,929 examples in total. The intended use of this dataset is to train models to better align with desired outputs by providing prompt-completion pairs and the original model's preferences. Since the dataset was generated using language models, completions may be incorrect in some cases; thus, the dataset includes an `is_chosen_correct` column to indicate whether the chosen completion is correct. This dataset is released under the Apache-2.0 license.
提供机构:
M4-ai
原始信息汇总
数据集概述
基本信息
- 名称: prm_dpo_pairs
- 语言: 英语
- 许可证: Apache-2.0
- 大小: 100K<n<1M
- 任务类别:
- 文本生成
- 问答
数据集结构
- 特征:
- prompt: 输入提示或问题(字符串)
- chosen: 原始语言模型选择的最好响应(字符串)
- rejected: 原始语言模型拒绝的较差响应(字符串)
- is_chosen_correct: 选择的响应是否正确(布尔值)
- 分割:
- train: 包含93,929个示例
使用目的
- 用于使用DPO(直接偏好优化)技术对语言模型进行微调。
限制
- 由于数据集是使用语言模型合成的,某些响应可能不正确。
is_chosen_correct列用于指示选择的响应是否实际正确。
许可证
- 数据集根据Apache-2.0许可证发布。



