allenai/tulu-2.5-preference-data

Name: allenai/tulu-2.5-preference-data
Creator: allenai
Published: 2024-07-22 01:35:43
License: 暂无描述

Hugging Face2024-07-22 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/allenai/tulu-2.5-preference-data

下载链接

链接失效反馈

官方服务：

资源简介：

Tulu 2.5 Preference Data数据集包含了用于训练模型的偏好数据集分割，这些模型在《Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback》一文中有所描述。数据集经过清理和格式化，以确保所有分割的格式一致。数据集主要用于研究，特别是在使用不同的RLHF方法训练模型时。数据集包含多个子集，如alpaca_farm_gpt4_pref、alpaca_farm_human_pref、capybara等，每个子集都有其特定的来源和许可证。

提供机构：

allenai

原始信息汇总

Tulu 2.5 Preference Data 数据集概述

数据集详情

语言(NLP): 英语（主要，未明确清理非英语数据）。
许可证: ODC-BY。不同数据集可能有额外的许可证详情，如下所述。

数据集划分描述

alpaca_farm_gpt4_pref: 来自 AlpacaFarm 数据集的 GPT-4 偏好划分。CC-BY-NC-4.0 许可证。
alpaca_farm_human_pref: 来自 AlpacaFarm 数据集的人类偏好划分。CC-BY-NC-4.0 许可证。
capybara: 来自 Argilla 的 7k DPO 二值化 Capybara 数据集。Apache 2.0 许可证。
chatbot_arena_2023: 来自 2023 年的 Chatbot Arena 对话数据集。用户提示在 CC-BY-4.0 许可证下，模型输出在 CC-BY-NC-4.0 许可证下。
chatbot_arena_2024: 来自 2024 年的 Chatbot Arena 人类偏好数据集。Apache 2.0 许可证。
helpsteer: HelpSteer 数据集的二值化形式。我们平均除冗长性外的方面来选择接受和拒绝的对。CC-BY-4.0 许可证。
hh_rlhf: 格式化和清理后的 Anthropic HH-RLHF 数据集。MIT 许可证。
nectar: 用于 Starling 模型的 Nectar 数据集，格式化和清理。Apache 2.0 许可证。
orca_dpo_pairs: Intel Orca DPO 对，特别是 Argilla 清理版本。Apache 2.0 许可证。
prm800k_pairs_phase2: PRM800k 第二阶段训练分割数据的偏好数据格式化。MIT 许可证。
shp_2: SHP-2 数据集，随机下采样至 500k 样本。Reddit 数据在 Reddit 许可证的历史变体下，Stack-Exchange 数据在 CC-BY-SA 许可证下。
stack_exchange_paired: StackExchange 配对数据集，随机下采样至 500k 样本。CC-BY-SA-4.0 许可证。
ultrafeedback_mean_aspects: UltraFeedback 数据集，特别是 Argilla 清理版本。MIT 许可证。
ultrafeedback_overall: UltraFeedback 数据集，特别是 Argilla 清理版本。我们重新排序接受和拒绝以匹配 GPT-4 给出的总体分数，而不是平均每个方面的分数。MIT 许可证。
hh_rlhf_60k: 上述 HH-RLHF 数据的随机 60,908 子样本。用于我们论文中的 PPO 实验。MIT 许可证。
nectar_60k: 上述 nectar 数据的随机 60,908 子样本。用于我们论文中的 PPO 实验。Apache 2.0 许可证。
stack_exchange_60k: 上述 StackExchange 配对数据的随机 60,908 子样本。用于我们论文中的 PPO 实验。CC-BY-SA-4.0 许可证。
preference_big_mixture: HelpSteer、PRM800k、HH-RLHF、Nectar、StackExchange 和 UltraFeedback 数据集的混合。我们随机下采样 StackExchange、HH-RLHF 和 Nectar 至 60,908 样本。这些数据集的许可证见相应的划分。
ultrafeedback_lower_10k: 从 ultrafeedback_mean_aspects 随机子样本的 10k 样本，仅包含 wizardlm-7b、llama-2-7b-chat、starchat、alpaca-7b、pythia-12b、falcon-40b-instruct 的生成。MIT 许可证。
ultrafeedback_middle_10k: 从 ultrafeedback_mean_aspects 随机子样本的 10k 样本，仅包含 vicuna-33b、mpt-30b-chat、llama-2-70b-chat、wizardlm-13b、llama-2-13b-chat、ultralm-65b、ultralm-13b 的生成。MIT 许可证。
ultrafeedback_top_10k: 从 ultrafeedback_mean_aspects 随机子样本的 10k 样本，仅包含 gpt-4、gpt-3.5、wizardlm-70b、bard 的生成。MIT 许可证。
ultrafeedback_evol_instruct: 使用最初来自 Evol-Instruct 提示的 ultrafeedback_mean_aspects 样本集。MIT 许可证。
ultrafeedback_false_qa: 使用最初来自 FalseQA 提示的 ultrafeedback_mean_aspects 样本集。MIT 许可证。
ultrafeedback_flan_v2: 使用最初来自 Flan V2 提示的 ultrafeedback_mean_aspects 样本集。MIT 许可证。
ultrafeedback_sharegpt: 使用最初来自 ShareGPT 提示的 ultrafeedback_mean_aspects 样本集。MIT 许可证。
ultrafeedback_truthful_qa: 使用最初来自 TruthfulQA 提示的 ultrafeedback 样本集。注意这些提示不包含在所有其他 UltraFeedback 划分中（包括 ultrafeedback_mean_aspects 和 ultrafeedback_overall）。MIT 许可证。
ultrafeedback_ultrachat: 使用最初来自 UltraChat 提示的 ultrafeedback 样本集。MIT 许可证。

用途

该数据集旨在用于研究，当使用不同的 RLHF 方法训练模型时。

引用

如果发现该数据有用，请引用： bibtex @misc{ivison2024unpacking, title={{Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback}}, author={{Hamish Ivison and Yizhong Wang and Jiacheng Liu and Ellen Wu and Valentina Pyatkin and Nathan Lambert and Yejin Choi and Noah A. Smith and Hannaneh Hajishirzi}} year={2024}, eprint={2406.09279}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集