DukeNLP/tailor-cgo
收藏Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/DukeNLP/tailor-cgo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了对语言模型生成的关于疫苗担忧的响应的评估,每个响应都通过识别出的“共同立场观点”进行定制。数据集包含人类和LLM标注的偏好/分数,用于评估每个书面响应的“定制程度”。标注结构包括(1)两个响应之间的相对偏好或(2)每个响应的绝对分数。每个响应都是由某个LLM根据多个可能的提示生成的,并在随机设置的温度下生成。数据集主要用于微调大型语言模型(LLMs),使其能够生成具有共同立场观点的定制响应,以及用于人类反馈的强化学习(RLHF)。
该数据集包含了对语言模型生成的关于疫苗担忧的响应的评估,每个响应都通过识别出的“共同立场观点”进行定制。数据集包含人类和LLM标注的偏好/分数,用于评估每个书面响应的“定制程度”。标注结构包括(1)两个响应之间的相对偏好或(2)每个响应的绝对分数。每个响应都是由某个LLM根据多个可能的提示生成的,并在随机设置的温度下生成。数据集主要用于微调大型语言模型(LLMs),使其能够生成具有共同立场观点的定制响应,以及用于人类反馈的强化学习(RLHF)。
提供机构:
DukeNLP
原始信息汇总
数据集概述
名称: Tailor-CGO
描述: 该数据集包含对语言模型生成的关于疫苗担忧的响应的评估,每个响应都旨在通过识别的“共同观点”建立共同基础。数据集包含人类和LLM注释的偏好/评分,用于衡量每个书面响应的“定制程度”。注释结构为两种形式:(1) 两个响应之间的相对偏好或 (2) 对每个响应的绝对评分。
语言: 英语
许可: MIT
主要用途:
- 微调大型语言模型(LLMs)以生成具有共同观点的定制响应
- 从人类反馈中进行强化学习(RLHF)
数据集结构
文件结构:
data/ ├── human_labeled/ │ ├── absolute_scores/ │ │ ├── dev-absolute.jsonl │ │ └── dev-relative_by_absolute.jsonl │ └── relative_preferences/ │ ├── dev-relative.jsonl │ ├── test-relative.jsonl │ └── train-relative.jsonl └── llm_labeled/ └── train-absolute.jsonl
注释类型:
- 绝对评分: 注释者被要求对每个响应的定制程度进行单独的绝对判断,评分范围为1-5。
- 相对偏好: 注释者被要求进行相对判断,比较两个响应并根据它们的定制程度进行排名。
数据集统计
| 文件 | 唯一响应数 | 比较次数 | 每样本注释数 |
|---|---|---|---|
| dev-absolute.jsonl | 400 | N/A | 3 |
| dev-relative_by_absolute.jsonl | 400 | 200 | 3 |
| dev-relative.jsonl | 400 | 200 | 3 |
| test-relative.jsonl | 800 | 400 | 3 |
| train-absolute.jsonl | 20000 | N/A | 100 |
| train-relative.jsonl | 1200 | 600 | 1 |
数据集创建
注释者: 通过Amazon Mechanical Turk招募的众包工作者。
筛选标准:
- AMT ‘masters’ 资格
- 至少2,500个批准的HITs
- 至少99%的批准率
培训与质量控制:
- 使用9个示例的教程进行培训
- 随机插入注意力检查以确保注释者充分阅读内容
- 定期检查注释并提供反馈
支付:
- 第一轮注释(开发集)支付约15-20美元/小时
- 第二轮注释(训练和测试集)支付约25-30美元/小时
- 为第二轮注释的前25%注释者提供100美元奖金



