argilla/ultrafeedback-multi-binarized-preferences-cleaned
收藏Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argilla/ultrafeedback-multi-binarized-preferences-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
UltraFeedback Multi-Binarized Preferences Cleaned数据集是一个用于探索通过使用多个拒绝响应来改进DPO微调效果的数据集。该数据集在AlpacaEval、MT-Bench和LM Eval Harness基准测试中进行了优化。数据集清理了与TruthfulQA和ShareGPT相关的污染数据,并采用了多二值化方法,每个选择的响应都有其对应的多个拒绝响应。
UltraFeedback Multi-Binarized Preferences Cleaned数据集是一个用于探索通过使用多个拒绝响应来改进DPO微调效果的数据集。该数据集在AlpacaEval、MT-Bench和LM Eval Harness基准测试中进行了优化。数据集清理了与TruthfulQA和ShareGPT相关的污染数据,并采用了多二值化方法,每个选择的响应都有其对应的多个拒绝响应。
提供机构:
argilla
原始信息汇总
UltraFeedback - Multi-Binarized using the Average of Preference Ratings (Cleaned)
数据集概述
- 语言: 英语
- 许可证: MIT
- 数据集大小: 100K<n<1M
- 任务类别: 文本生成
- 数据集名称: UltraFeedback Multi-Binarized Preferences Cleaned
数据集信息
-
特征:
source: 字符串类型prompt: 字符串类型chosen: 列表类型content: 字符串类型role: 字符串类型
chosen-rating: 浮点数类型chosen-model: 字符串类型rejected: 列表类型content: 字符串类型role: 字符串类型
rejected-rating: 浮点数类型rejected-model: 字符串类型
-
分割:
train: 738122612字节, 157675个样本
-
下载大小: 196872615字节
-
数据集大小: 738122612字节
配置
- 配置名称: default
- 数据文件:
split: trainpath: data/train-*
- 数据文件:
标签
- dpo
- preference
- ultrafeedback
搜集汇总
背景与挑战
背景概述
该数据集旨在通过多拒绝响应方法改进DPO微调效果,并在多个基准测试中进行了优化。它清理了污染数据,并采用多二值化处理,为每个选择响应提供多个拒绝响应,以增强模型训练效果。
以上内容由遇见数据集搜集并总结生成



