five

DukeNLP/tailor-cgo

收藏
Hugging Face2024-05-21 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/DukeNLP/tailor-cgo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了对语言模型生成的关于疫苗担忧的响应的评估,每个响应都通过识别出的“共同立场观点”进行定制。数据集包含人类和LLM标注的偏好/分数,用于评估每个书面响应的“定制程度”。标注结构包括(1)两个响应之间的相对偏好或(2)每个响应的绝对分数。每个响应都是由某个LLM根据多个可能的提示生成的,并在随机设置的温度下生成。数据集主要用于微调大型语言模型(LLMs),使其能够生成具有共同立场观点的定制响应,以及用于人类反馈的强化学习(RLHF)。

该数据集包含了对语言模型生成的关于疫苗担忧的响应的评估,每个响应都通过识别出的“共同立场观点”进行定制。数据集包含人类和LLM标注的偏好/分数,用于评估每个书面响应的“定制程度”。标注结构包括(1)两个响应之间的相对偏好或(2)每个响应的绝对分数。每个响应都是由某个LLM根据多个可能的提示生成的,并在随机设置的温度下生成。数据集主要用于微调大型语言模型(LLMs),使其能够生成具有共同立场观点的定制响应,以及用于人类反馈的强化学习(RLHF)。
提供机构:
DukeNLP
原始信息汇总

数据集概述

名称: Tailor-CGO

描述: 该数据集包含对语言模型生成的关于疫苗担忧的响应的评估,每个响应都旨在通过识别的“共同观点”建立共同基础。数据集包含人类和LLM注释的偏好/评分,用于衡量每个书面响应的“定制程度”。注释结构为两种形式:(1) 两个响应之间的相对偏好或 (2) 对每个响应的绝对评分。

语言: 英语

许可: MIT

主要用途:

  • 微调大型语言模型(LLMs)以生成具有共同观点的定制响应
  • 从人类反馈中进行强化学习(RLHF)

数据集结构

文件结构:

data/ ├── human_labeled/ │ ├── absolute_scores/ │ │ ├── dev-absolute.jsonl │ │ └── dev-relative_by_absolute.jsonl │ └── relative_preferences/ │ ├── dev-relative.jsonl │ ├── test-relative.jsonl │ └── train-relative.jsonl └── llm_labeled/ └── train-absolute.jsonl

注释类型:

  • 绝对评分: 注释者被要求对每个响应的定制程度进行单独的绝对判断,评分范围为1-5。
  • 相对偏好: 注释者被要求进行相对判断,比较两个响应并根据它们的定制程度进行排名。

数据集统计

文件 唯一响应数 比较次数 每样本注释数
dev-absolute.jsonl 400 N/A 3
dev-relative_by_absolute.jsonl 400 200 3
dev-relative.jsonl 400 200 3
test-relative.jsonl 800 400 3
train-absolute.jsonl 20000 N/A 100
train-relative.jsonl 1200 600 1

数据集创建

注释者: 通过Amazon Mechanical Turk招募的众包工作者。

筛选标准:

  • AMT ‘masters’ 资格
  • 至少2,500个批准的HITs
  • 至少99%的批准率

培训与质量控制:

  • 使用9个示例的教程进行培训
  • 随机插入注意力检查以确保注释者充分阅读内容
  • 定期检查注释并提供反馈

支付:

  • 第一轮注释(开发集)支付约15-20美元/小时
  • 第二轮注释(训练和测试集)支付约25-30美元/小时
  • 为第二轮注释的前25%注释者提供100美元奖金
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作