allenai/tulu-2.5-prompts

Name: allenai/tulu-2.5-prompts
Creator: allenai
Published: 2024-07-06 20:06:16
License: 暂无描述

Hugging Face2024-07-06 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/allenai/tulu-2.5-prompts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于训练PPO模型的提示词集合，这些提示词来自多个不同的数据集，包括GSM8k、UltraFeedback、WildChat和LMSYS 1M等。具体来说，gsm8k_prompts来自GSM8k训练集，ultrafeedback_prompts来自清理后的UltraFeedback数据集，math_prompts是通过提示Tulu 2 70B模型从UltraFeedback、WildChat和LMSYS 1M中挖掘的数学相关示例，ultrafeedback_code_math_prompts则是使用相同方法挖掘的代码提示词，并结合了UltraFeedback和数学提示词集。该数据集由@hamishivi整理，主要语言为英语，使用了多种许可证（ODC-BY、MIT、自定义许可证和Ai2低风险影响许可证）。该数据集旨在用于研究，特别是在使用在线RLHF方法训练模型时。

提供机构：

allenai

原始信息汇总

Tulu 2.5 Prompts Dataset

数据集详情

该数据集包含用于训练PPO模型的提示集合，这些模型在论文《Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback》中描述。数据集仅包含PPO训练期间使用的提示。

提示描述

gsm8k_prompts: 来自GSM8k train split的提示。
ultrafeedback_prompts: 来自cleaned UltraFeedback数据集的提示。
math_prompts: 从UltraFeedback、WildChat和LMSYS 1M中挖掘的数学相关提示，通过提示Tulu 2 70B识别。更多细节请阅读论文附录。
ultrafeedback_code_math_prompts: 使用与数学提示相同的方法挖掘的代码提示，结合了UltraFeedback和数学提示集。这是在探索提示效果时使用的“混合”提示集。

进一步详情

策划者: @hamishivi
语言: 英语
许可证: ODC-BY。注意GSM8k和UltraFeedback的许可证为MIT，LMSYS为自定义许可证，WildChat为Ai2低风险影响许可证。

用途

该数据集旨在用于研究，特别是在使用在线RLHF方法训练模型时，仅涉及未标记的提示。

引用

如果您发现此数据有用，请引用：

bibtex @misc{ivison2024unpacking, title={{Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback}}, author={{Hamish Ivison and Yizhong Wang and Jiacheng Liu and Ellen Wu and Valentina Pyatkin and Nathan Lambert and Yejin Choi and Noah A. Smith and Hannaneh Hajishirzi}} year={2024}, eprint={2406.09279}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集