flyingfishinwater/ultrafeedback_clean
收藏数据集卡片 for UltraFeedback Cleaned
数据集描述
这是一个经过清理的 HuggingFaceH4/ultrafeedback_binarized 版本,并转换为 jsonl 格式,适用于 DPO 或 PPO 训练。
清理步骤如下:
- 移除所有包含 translation 或 translate 的行。
- 移除所有以 User: As an AI assistant 开头的答案。
- 移除所有包含 As an AI assistant, I will no] 的行。
- 移除所有以 As an AI ... However, 开头的部分。
- 移除所有以 As an AI ... 开头至第一个句号的部分。
- 移除所有答案中的 </s>。
数据集结构
数据分割
数据集包含六个分割,适用于:
- 监督微调(
sft)。 - 偏好建模(
prefs),用于训练奖励模型或应用 DPO 等技术。 - 生成排序(
gen),通过拒绝采样或 PPO 等技术。
各分割的示例数量如下:
| train_sft | test_sft | train_prefs | test_prefs | train_gen | test_gen |
|---|---|---|---|---|---|
| 57170 | 926 | 57170 | 1846 | 57170 | 926 |
数据集以 parquet 格式存储,每个条目使用以下模式:
json { "prompt_id": "2ebd7aee7e4da986e8a8880371e86cb7685daaa7993fc357245ff94705060e5e", "prompt": "In a world where workplace safety is of utmost importance, theres a need for innovative training methods that can prepare employees to face hazardous scenarios...", "score_chosen": 8.0, "score_rejected": 7.5, "chosen": "You have highlighted some very important aspects of using Virtual Reality (VR) technology for workplace safety training...", "rejected": "When considering the use of virtual reality technology for safety training, several key factors should be taken into account to determine its effectiveness and suitability for a specific workplace environment..." }
应使用 chosen 和 rejected 列进行 DPO、SFT 或 PPO 等技术。
引用
如果您在工作中发现此数据集有用,请引用原始 UltraFeedback 数据集:https://huggingface.co/datasets/openbmb/UltraFeedback
您也可以引用 Zephyr 7B 技术报告:
@misc{tunstall2023zephyr, title={Zephyr: Direct Distillation of LM Alignment}, author={Lewis Tunstall and Edward Beeching and Nathan Lambert and Nazneen Rajani and Kashif Rasul and Younes Belkada and Shengyi Huang and Leandro von Werra and Clémentine Fourrier and Nathan Habib and Nathan Sarrazin and Omar Sanseviero and Alexander M. Rush and Thomas Wolf}, year={2023}, eprint={2310.16944}, archivePrefix={arXiv}, primaryClass={cs.LG} }



