Unified-Language-Model-Alignment/Anthropic_HH_Golden

Name: Unified-Language-Model-Alignment/Anthropic_HH_Golden
Creator: Unified-Language-Model-Alignment
Published: 2023-10-04 13:36:29
License: 暂无描述

Hugging Face2023-10-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Unified-Language-Model-Alignment/Anthropic_HH_Golden

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了测试ULMA技术而构建的，ULMA技术在论文《Unified Language Model Alignment with Demonstration and Point-wise Human Preference》中被提及。该技术通过将偏好数据集中的正样本替换为高质量演示数据（黄金数据），显著提升了各种对齐方法（如RLHF、DPO、ULMA）的性能。特别是，ULMA方法通过区别对待正样本和负样本，并移除正样本的KL正则化器，进一步提升了性能。该数据集是对Anthropic的Helpful and Harmless (HH)数据集的扩展，其中正样本被GPT4重新生成的响应所替换，以提高无害性。

提供机构：

Unified-Language-Model-Alignment

原始信息汇总

数据集概述

名称： Anthropic_HH_Golden

许可证： Apache-2.0

任务类别： 对话式

语言： 英语

标签： 无害

大小类别： 10K<n<100K

数据集详情

目的： 该数据集旨在测试ULMA（Unified Language Model Alignment）技术，该技术通过在偏好数据集中替换高质量的演示数据（黄金数据）来显著提高各种对齐方法（如RLHF、DPO、ULMA）的性能。ULMA方法通过不同地对待正负样本，并移除正样本的KL正则化器来提升性能。

内容： 本数据集扩展了Anthropic的Helpful and Harmless（HH）数据集中的无害数据集。原始的正响应由Anthropic的监督微调模型生成，其中经常遇到有害和不有帮助的响应。在此数据集中，正响应被GPT4重写的响应所替换。

比较： 与原始HH数据集相比，经过重写后的“选定”响应更加无害，而“拒绝”响应保持不变。

使用方法

加载数据集： python from datasets import load_dataset dataset = load_dataset("Unified-Language-Model-Alignment/Anthropic_HH_Golden")

直接下载数据文件： bash git clone https://huggingface.co/datasets/Unified-Language-Model-Alignment/Anthropic_HH_Golden

5,000+

优质数据集

54 个

任务类型

进入经典数据集