DukeNLP/tailor-cgo

Name: DukeNLP/tailor-cgo
Creator: DukeNLP
Published: 2024-05-21 16:21:38
License: 暂无描述

Hugging Face2024-05-21 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/DukeNLP/tailor-cgo

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了对语言模型生成的关于疫苗担忧的响应的评估，每个响应都通过识别出的“共同立场观点”进行定制。数据集包含人类和LLM标注的偏好/分数，用于评估每个书面响应的“定制程度”。标注结构包括（1）两个响应之间的相对偏好或（2）每个响应的绝对分数。每个响应都是由某个LLM根据多个可能的提示生成的，并在随机设置的温度下生成。数据集主要用于微调大型语言模型（LLMs），使其能够生成具有共同立场观点的定制响应，以及用于人类反馈的强化学习（RLHF）。

提供机构：

DukeNLP

原始信息汇总

数据集概述

名称: Tailor-CGO

描述: 该数据集包含对语言模型生成的关于疫苗担忧的响应的评估，每个响应都旨在通过识别的“共同观点”建立共同基础。数据集包含人类和LLM注释的偏好/评分，用于衡量每个书面响应的“定制程度”。注释结构为两种形式：(1) 两个响应之间的相对偏好或 (2) 对每个响应的绝对评分。

语言: 英语

许可: MIT

主要用途:

微调大型语言模型(LLMs)以生成具有共同观点的定制响应
从人类反馈中进行强化学习(RLHF)

数据集结构

文件结构:

data/ ├── human_labeled/ │ ├── absolute_scores/ │ │ ├── dev-absolute.jsonl │ │ └── dev-relative_by_absolute.jsonl │ └── relative_preferences/ │ ├── dev-relative.jsonl │ ├── test-relative.jsonl │ └── train-relative.jsonl └── llm_labeled/ └── train-absolute.jsonl

注释类型:

绝对评分: 注释者被要求对每个响应的定制程度进行单独的绝对判断，评分范围为1-5。
相对偏好: 注释者被要求进行相对判断，比较两个响应并根据它们的定制程度进行排名。

数据集统计

文件	唯一响应数	比较次数	每样本注释数
dev-absolute.jsonl	400	N/A	3
dev-relative_by_absolute.jsonl	400	200	3
dev-relative.jsonl	400	200	3
test-relative.jsonl	800	400	3
train-absolute.jsonl	20000	N/A	100
train-relative.jsonl	1200	600	1

数据集创建

注释者: 通过Amazon Mechanical Turk招募的众包工作者。

筛选标准:

AMT ‘masters’ 资格
至少2,500个批准的HITs
至少99%的批准率

培训与质量控制:

使用9个示例的教程进行培训
随机插入注意力检查以确保注释者充分阅读内容
定期检查注释并提供反馈

支付:

第一轮注释（开发集）支付约15-20美元/小时
第二轮注释（训练和测试集）支付约25-30美元/小时
为第二轮注释的前25%注释者提供100美元奖金

5,000+

优质数据集

54 个

任务类型

进入经典数据集