five

flyingfishinwater/ultrafeedback_clean

收藏
Hugging Face2024-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flyingfishinwater/ultrafeedback_clean
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个清理后的UltraFeedback数据集版本,适用于DPO或PPO训练。清理步骤包括移除翻译任务、错误的AI助手回答、格式错误的提示和回答等。数据集包含六个分割,适用于监督微调、偏好建模和生成排名。每个分割的示例数量在表格中列出,数据集以parquet格式存储,每个条目包含prompt_id、prompt、score_chosen、score_rejected、chosen和rejected字段。

This is a cleaned version of the UltraFeedback dataset, suitable for DPO or PPO training. The cleaning steps include removing translation tasks, incorrect AI assistant responses, malformed prompts and answers, etc. The dataset contains six splits, suitable for supervised fine-tuning, preference modeling, and generation ranking. The number of examples per split is shown in a table, and the dataset is stored in parquet format, with each entry containing fields such as prompt_id, prompt, score_chosen, score_rejected, chosen, and rejected.
提供机构:
flyingfishinwater
原始信息汇总

数据集卡片 for UltraFeedback Cleaned

数据集描述

这是一个经过清理的 HuggingFaceH4/ultrafeedback_binarized 版本,并转换为 jsonl 格式,适用于 DPO 或 PPO 训练。

清理步骤如下:

  1. 移除所有包含 translation 或 translate 的行。
  2. 移除所有以 User: As an AI assistant 开头的答案。
  3. 移除所有包含 As an AI assistant, I will no] 的行。
  4. 移除所有以 As an AI ... However, 开头的部分。
  5. 移除所有以 As an AI ... 开头至第一个句号的部分。
  6. 移除所有答案中的 </s>。

数据集结构

数据分割

数据集包含六个分割,适用于:

  • 监督微调(sft)。
  • 偏好建模(prefs),用于训练奖励模型或应用 DPO 等技术。
  • 生成排序(gen),通过拒绝采样或 PPO 等技术。

各分割的示例数量如下:

train_sft test_sft train_prefs test_prefs train_gen test_gen
57170 926 57170 1846 57170 926

数据集以 parquet 格式存储,每个条目使用以下模式:

json { "prompt_id": "2ebd7aee7e4da986e8a8880371e86cb7685daaa7993fc357245ff94705060e5e", "prompt": "In a world where workplace safety is of utmost importance, theres a need for innovative training methods that can prepare employees to face hazardous scenarios...", "score_chosen": 8.0, "score_rejected": 7.5, "chosen": "You have highlighted some very important aspects of using Virtual Reality (VR) technology for workplace safety training...", "rejected": "When considering the use of virtual reality technology for safety training, several key factors should be taken into account to determine its effectiveness and suitability for a specific workplace environment..." }

应使用 chosenrejected 列进行 DPO、SFT 或 PPO 等技术。

引用

如果您在工作中发现此数据集有用,请引用原始 UltraFeedback 数据集:https://huggingface.co/datasets/openbmb/UltraFeedback

您也可以引用 Zephyr 7B 技术报告:

@misc{tunstall2023zephyr, title={Zephyr: Direct Distillation of LM Alignment}, author={Lewis Tunstall and Edward Beeching and Nathan Lambert and Nazneen Rajani and Kashif Rasul and Younes Belkada and Shengyi Huang and Leandro von Werra and Clémentine Fourrier and Nathan Habib and Nathan Sarrazin and Omar Sanseviero and Alexander M. Rush and Thomas Wolf}, year={2023}, eprint={2310.16944}, archivePrefix={arXiv}, primaryClass={cs.LG} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作