five

NUSTM/judgement-consistency-preference-data

收藏
Hugging Face2024-02-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NUSTM/judgement-consistency-preference-data
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个偏好数据集,旨在增强模型在面对干扰时的判断一致性,适用于DPO算法。它包含2607个从算术、常识、符号和知识推理数据集中采样的提示,每个提示都配有一对响应:一个“被选择”的响应和一个“被拒绝”的响应。数据集设计了一个对话场景,包含一轮后续问题的干扰。模型在回答后续问题时的判断类型包括True-True、False-True、False-False和True-False。数据集的偏好排序为True-True ≻ False-True ≻ False-False ≻ True-False。此外,数据集还考虑了模型响应与指令的符合性,因此在“被拒绝”的响应中保留了一部分样本,这些样本的答案是正确的,但没有严格遵循指令的输出格式。

这是一个偏好数据集,旨在增强模型在面对干扰时的判断一致性,适用于DPO算法。它包含2607个从算术、常识、符号和知识推理数据集中采样的提示,每个提示都配有一对响应:一个“被选择”的响应和一个“被拒绝”的响应。数据集设计了一个对话场景,包含一轮后续问题的干扰。模型在回答后续问题时的判断类型包括True-True、False-True、False-False和True-False。数据集的偏好排序为True-True ≻ False-True ≻ False-False ≻ True-False。此外,数据集还考虑了模型响应与指令的符合性,因此在“被拒绝”的响应中保留了一部分样本,这些样本的答案是正确的,但没有严格遵循指令的输出格式。
提供机构:
NUSTM
原始信息汇总

数据集概述

数据集名称

Judgement Consistency Preference Data

数据集描述

这是一个旨在增强模型面对干扰时判断一致性的偏好数据集,适用于DPO算法。数据集包含2607个来自算术、常识、符号和知识推理数据集的提示,每个提示都配有一对响应:一个“选定”响应和一个“拒绝”响应。

任务类别

  • 文本生成

数据集大小

  • 1K<n<10K

数据集内容

数据集设计了一个对话场景,包含一轮后续提问干扰。模型在面对一轮后续问题后可能给出的判断类型有:True-True, False-True, False-False, True-False。第一个True或False表示模型在初始问答中的判断正确性,第二个表示面对后续问题时的判断正确性。

偏好排名

  • True-True ≻ False-True ≻ False-False ≻ True-False

数据集格式

数据集以parquet格式存储,每个条目使用以下模式:

[ { "dataset": "svamp", "id": "svamp_2", "question": "问题文本", "ground truth": "正确答案", "sft_score": "模型判断", "preference_score": "偏好评分", "chosen": [ { "role": "角色", "content": "内容" } ], "rejected": [ { "role": "角色", "content": "内容" } ] } ]

数据集用途

用于评估和训练模型在面对后续问题干扰时的判断一致性。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作