NUSTM/judgement-consistency-preference-data

Name: NUSTM/judgement-consistency-preference-data
Creator: NUSTM
Published: 2024-02-29 09:20:00
License: 暂无描述

Hugging Face2024-02-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NUSTM/judgement-consistency-preference-data

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个偏好数据集，旨在增强模型在面对干扰时的判断一致性，适用于DPO算法。它包含2607个从算术、常识、符号和知识推理数据集中采样的提示，每个提示都配有一对响应：一个“被选择”的响应和一个“被拒绝”的响应。数据集设计了一个对话场景，包含一轮后续问题的干扰。模型在回答后续问题时的判断类型包括True-True、False-True、False-False和True-False。数据集的偏好排序为True-True ≻ False-True ≻ False-False ≻ True-False。此外，数据集还考虑了模型响应与指令的符合性，因此在“被拒绝”的响应中保留了一部分样本，这些样本的答案是正确的，但没有严格遵循指令的输出格式。

提供机构：

NUSTM

原始信息汇总

数据集概述

数据集名称

Judgement Consistency Preference Data

数据集描述

这是一个旨在增强模型面对干扰时判断一致性的偏好数据集，适用于DPO算法。数据集包含2607个来自算术、常识、符号和知识推理数据集的提示，每个提示都配有一对响应：一个“选定”响应和一个“拒绝”响应。

任务类别

文本生成

数据集大小

1K<n<10K

数据集内容

数据集设计了一个对话场景，包含一轮后续提问干扰。模型在面对一轮后续问题后可能给出的判断类型有：True-True, False-True, False-False, True-False。第一个True或False表示模型在初始问答中的判断正确性，第二个表示面对后续问题时的判断正确性。

偏好排名

True-True ≻ False-True ≻ False-False ≻ True-False

数据集格式

数据集以parquet格式存储，每个条目使用以下模式：

[ { "dataset": "svamp", "id": "svamp_2", "question": "问题文本", "ground truth": "正确答案", "sft_score": "模型判断", "preference_score": "偏好评分", "chosen": [ { "role": "角色", "content": "内容" } ], "rejected": [ { "role": "角色", "content": "内容" } ] } ]

数据集用途

用于评估和训练模型在面对后续问题干扰时的判断一致性。

5,000+

优质数据集

54 个

任务类型

进入经典数据集