xiaodongguaAIGC/awesome-dpo
收藏Hugging Face2024-07-03 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/xiaodongguaAIGC/awesome-dpo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于文本生成任务,包含prompt、chosen和rejected三个特征。数据集来源于多个数据源,包括xiaodongguaAIGC/CValues_DPO、Anthropic/hh-rlhf、PKU-Alignment/PKU-SafeRLHF-30K和wenbopan/Chinese-dpo-pairs。特别处理包括在hh-rlhf中删除了第一个###Question,在saferlhf中去除了都不安全的回复。数据集支持中文和英文,大小在100K到1M之间。
This dataset is primarily used for text generation tasks and includes three features: prompt, chosen, and rejected. The dataset is sourced from multiple data sources, including xiaodongguaAIGC/CValues_DPO, Anthropic/hh-rlhf, PKU-Alignment/PKU-SafeRLHF-30K, and wenbopan/Chinese-dpo-pairs. Special processing includes the removal of the first ###Question in hh-rlhf and the removal of all unsafe replies in saferlhf. The dataset supports both Chinese and English and is sized between 100K and 1M.
提供机构:
xiaodongguaAIGC
原始信息汇总
数据集信息
特征
- prompt: 数据类型为字符串。
- chosen: 数据类型为字符串。
- rejected: 数据类型为字符串。
数据分割
- train: 包含302011个样本,占用453243598字节。
下载和数据大小
- 下载大小: 287803890字节。
- 数据集大小: 453243598字节。
配置
- default: 包含训练数据文件,路径为
data/train-*。
任务类别
- 文本生成
语言
- 中文
- 英文
标签
- RLHF
- DPO
- Reward
- PPO
- Preference
- finetune
- safety
数据集大小类别
- 100K<n<1M
数据来源
- xiaodongguaAIGC/CValues_DPO: 包含110k和30k样本。
- Anthropic/hh-rlhf: 包含160k样本。
- PKU-Alignment/PKU-SafeRLHF-30K: 包含30k样本,过滤了不安全的数据。
- wenbopan/Chinese-dpo-pairs: 包含10k样本。
特别处理
- hh-rlhf: 删除了第一个
###Question。 - PKU-SafeRLHF-30K: 去除了不安全的回复。



