five

allenai/tulu-2.5-preference-data

收藏
Hugging Face2024-07-22 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/allenai/tulu-2.5-preference-data
下载链接
链接失效反馈
官方服务:
资源简介:
Tulu 2.5 Preference Data数据集包含了用于训练模型的偏好数据集分割,这些模型在《Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback》一文中有所描述。数据集经过清理和格式化,以确保所有分割的格式一致。数据集主要用于研究,特别是在使用不同的RLHF方法训练模型时。数据集包含多个子集,如alpaca_farm_gpt4_pref、alpaca_farm_human_pref、capybara等,每个子集都有其特定的来源和许可证。

Tulu 2.5 Preference Data数据集包含了用于训练模型的偏好数据集分割,这些模型在《Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback》一文中有所描述。数据集经过清理和格式化,以确保所有分割的格式一致。数据集主要用于研究,特别是在使用不同的RLHF方法训练模型时。数据集包含多个子集,如alpaca_farm_gpt4_pref、alpaca_farm_human_pref、capybara等,每个子集都有其特定的来源和许可证。
提供机构:
allenai
原始信息汇总

Tulu 2.5 Preference Data 数据集概述

数据集详情

  • 语言(NLP): 英语(主要,未明确清理非英语数据)。
  • 许可证: ODC-BY。不同数据集可能有额外的许可证详情,如下所述。

数据集划分描述

  • alpaca_farm_gpt4_pref: 来自 AlpacaFarm 数据集 的 GPT-4 偏好划分。CC-BY-NC-4.0 许可证。
  • alpaca_farm_human_pref: 来自 AlpacaFarm 数据集 的人类偏好划分。CC-BY-NC-4.0 许可证。
  • capybara: 来自 Argilla 的 7k DPO 二值化 Capybara 数据集。Apache 2.0 许可证。
  • chatbot_arena_2023: 来自 2023 年的 Chatbot Arena 对话数据集。用户提示在 CC-BY-4.0 许可证下,模型输出在 CC-BY-NC-4.0 许可证下。
  • chatbot_arena_2024: 来自 2024 年的 Chatbot Arena 人类偏好数据集。Apache 2.0 许可证。
  • helpsteer: HelpSteer 数据集 的二值化形式。我们平均除冗长性外的方面来选择接受和拒绝的对。CC-BY-4.0 许可证。
  • hh_rlhf: 格式化和清理后的 Anthropic HH-RLHF 数据集。MIT 许可证。
  • nectar: 用于 Starling 模型的 Nectar 数据集,格式化和清理。Apache 2.0 许可证。
  • orca_dpo_pairs: Intel Orca DPO 对,特别是 Argilla 清理版本。Apache 2.0 许可证。
  • prm800k_pairs_phase2: PRM800k 第二阶段训练分割数据的偏好数据格式化。MIT 许可证。
  • shp_2: SHP-2 数据集,随机下采样至 500k 样本。Reddit 数据在 Reddit 许可证的历史变体下,Stack-Exchange 数据在 CC-BY-SA 许可证下。
  • stack_exchange_paired: StackExchange 配对数据集,随机下采样至 500k 样本。CC-BY-SA-4.0 许可证。
  • ultrafeedback_mean_aspects: UltraFeedback 数据集,特别是 Argilla 清理版本。MIT 许可证。
  • ultrafeedback_overall: UltraFeedback 数据集,特别是 Argilla 清理版本。我们重新排序接受和拒绝以匹配 GPT-4 给出的总体分数,而不是平均每个方面的分数。MIT 许可证。
  • hh_rlhf_60k: 上述 HH-RLHF 数据的随机 60,908 子样本。用于我们论文中的 PPO 实验。MIT 许可证。
  • nectar_60k: 上述 nectar 数据的随机 60,908 子样本。用于我们论文中的 PPO 实验。Apache 2.0 许可证。
  • stack_exchange_60k: 上述 StackExchange 配对数据的随机 60,908 子样本。用于我们论文中的 PPO 实验。CC-BY-SA-4.0 许可证。
  • preference_big_mixture: HelpSteer、PRM800k、HH-RLHF、Nectar、StackExchange 和 UltraFeedback 数据集的混合。我们随机下采样 StackExchange、HH-RLHF 和 Nectar 至 60,908 样本。这些数据集的许可证见相应的划分。
  • ultrafeedback_lower_10k: 从 ultrafeedback_mean_aspects 随机子样本的 10k 样本,仅包含 wizardlm-7b、llama-2-7b-chat、starchat、alpaca-7b、pythia-12b、falcon-40b-instruct 的生成。MIT 许可证。
  • ultrafeedback_middle_10k: 从 ultrafeedback_mean_aspects 随机子样本的 10k 样本,仅包含 vicuna-33b、mpt-30b-chat、llama-2-70b-chat、wizardlm-13b、llama-2-13b-chat、ultralm-65b、ultralm-13b 的生成。MIT 许可证。
  • ultrafeedback_top_10k: 从 ultrafeedback_mean_aspects 随机子样本的 10k 样本,仅包含 gpt-4、gpt-3.5、wizardlm-70b、bard 的生成。MIT 许可证。
  • ultrafeedback_evol_instruct: 使用最初来自 Evol-Instruct 提示的 ultrafeedback_mean_aspects 样本集。MIT 许可证。
  • ultrafeedback_false_qa: 使用最初来自 FalseQA 提示的 ultrafeedback_mean_aspects 样本集。MIT 许可证。
  • ultrafeedback_flan_v2: 使用最初来自 Flan V2 提示的 ultrafeedback_mean_aspects 样本集。MIT 许可证。
  • ultrafeedback_sharegpt: 使用最初来自 ShareGPT 提示的 ultrafeedback_mean_aspects 样本集。MIT 许可证。
  • ultrafeedback_truthful_qa: 使用最初来自 TruthfulQA 提示的 ultrafeedback 样本集。注意这些提示不包含在所有其他 UltraFeedback 划分中(包括 ultrafeedback_mean_aspects 和 ultrafeedback_overall)。MIT 许可证。
  • ultrafeedback_ultrachat: 使用最初来自 UltraChat 提示的 ultrafeedback 样本集。MIT 许可证。

用途

该数据集旨在用于研究,当使用不同的 RLHF 方法训练模型时。

引用

如果发现该数据有用,请引用: bibtex @misc{ivison2024unpacking, title={{Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback}}, author={{Hamish Ivison and Yizhong Wang and Jiacheng Liu and Ellen Wu and Valentina Pyatkin and Nathan Lambert and Yejin Choi and Noah A. Smith and Hannaneh Hajishirzi}} year={2024}, eprint={2406.09279}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作