Unified-Language-Model-Alignment/Anthropic_HH_Golden
收藏Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Unified-Language-Model-Alignment/Anthropic_HH_Golden
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了测试ULMA技术而构建的,ULMA技术在论文《Unified Language Model Alignment with Demonstration and Point-wise Human Preference》中被提及。该技术通过将偏好数据集中的正样本替换为高质量演示数据(黄金数据),显著提升了各种对齐方法(如RLHF、DPO、ULMA)的性能。特别是,ULMA方法通过区别对待正样本和负样本,并移除正样本的KL正则化器,进一步提升了性能。该数据集是对Anthropic的Helpful and Harmless (HH)数据集的扩展,其中正样本被GPT4重新生成的响应所替换,以提高无害性。
提供机构:
Unified-Language-Model-Alignment
原始信息汇总
数据集概述
名称: Anthropic_HH_Golden
许可证: Apache-2.0
任务类别: 对话式
语言: 英语
标签: 无害
大小类别: 10K<n<100K
数据集详情
目的: 该数据集旨在测试ULMA(Unified Language Model Alignment)技术,该技术通过在偏好数据集中替换高质量的演示数据(黄金数据)来显著提高各种对齐方法(如RLHF、DPO、ULMA)的性能。ULMA方法通过不同地对待正负样本,并移除正样本的KL正则化器来提升性能。
内容: 本数据集扩展了Anthropic的Helpful and Harmless(HH)数据集中的无害数据集。原始的正响应由Anthropic的监督微调模型生成,其中经常遇到有害和不有帮助的响应。在此数据集中,正响应被GPT4重写的响应所替换。
比较: 与原始HH数据集相比,经过重写后的“选定”响应更加无害,而“拒绝”响应保持不变。
使用方法
加载数据集: python from datasets import load_dataset dataset = load_dataset("Unified-Language-Model-Alignment/Anthropic_HH_Golden")
直接下载数据文件: bash git clone https://huggingface.co/datasets/Unified-Language-Model-Alignment/Anthropic_HH_Golden



