alvarobartt/Anthropic_HH_Golden_Formatted
收藏Hugging Face2023-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alvarobartt/Anthropic_HH_Golden_Formatted
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在测试ULMA技术,如论文《Unified Language Model Alignment with Demonstration and Point-wise Human Preference》中所述。通过用高质量演示数据(黄金数据)替换偏好数据集中的正样本,可以显著提高各种对齐方法(如RLHF、DPO、ULMA)的性能。特别是,ULMA方法通过以不同方式处理正样本和负样本,并移除正样本的KL正则化器,从而利用偏好数据集中的高质量演示数据来提升性能。
该数据集旨在测试ULMA技术,如论文《Unified Language Model Alignment with Demonstration and Point-wise Human Preference》中所述。通过用高质量演示数据(黄金数据)替换偏好数据集中的正样本,可以显著提高各种对齐方法(如RLHF、DPO、ULMA)的性能。特别是,ULMA方法通过以不同方式处理正样本和负样本,并移除正样本的KL正则化器,从而利用偏好数据集中的高质量演示数据来提升性能。
提供机构:
alvarobartt
原始信息汇总
数据集概述
数据集信息
- 特征:
prompt_id: 字符串类型prompt: 字符串类型chosen: 列表类型,包含以下字段:content: 字符串类型role: 字符串类型
rejected: 列表类型,包含以下字段:content: 字符串类型role: 字符串类型
- 分割:
train: 字节数为65325008,样本数为42537test: 字节数为3651096,样本数为2312
- 下载大小: 39481598字节
- 数据集大小: 68976104字节
配置
- 默认配置:
train分割路径:data/train-*test分割路径:data/test-*
许可证
apache-2.0
任务类别
conversational
语言
en
标签
not-for-all-audiences
名称
Anthropic HH Golden Formatted
大小类别
10K<n<100K



