five

allenai/tulu-2.5-prompts

收藏
Hugging Face2024-07-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/allenai/tulu-2.5-prompts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了用于训练PPO模型的提示词集合,这些提示词来自多个不同的数据集,包括GSM8k、UltraFeedback、WildChat和LMSYS 1M等。具体来说,gsm8k_prompts来自GSM8k训练集,ultrafeedback_prompts来自清理后的UltraFeedback数据集,math_prompts是通过提示Tulu 2 70B模型从UltraFeedback、WildChat和LMSYS 1M中挖掘的数学相关示例,ultrafeedback_code_math_prompts则是使用相同方法挖掘的代码提示词,并结合了UltraFeedback和数学提示词集。该数据集由@hamishivi整理,主要语言为英语,使用了多种许可证(ODC-BY、MIT、自定义许可证和Ai2低风险影响许可证)。该数据集旨在用于研究,特别是在使用在线RLHF方法训练模型时。

该数据集包含了用于训练PPO模型的提示词集合,这些提示词来自多个不同的数据集,包括GSM8k、UltraFeedback、WildChat和LMSYS 1M等。具体来说,gsm8k_prompts来自GSM8k训练集,ultrafeedback_prompts来自清理后的UltraFeedback数据集,math_prompts是通过提示Tulu 2 70B模型从UltraFeedback、WildChat和LMSYS 1M中挖掘的数学相关示例,ultrafeedback_code_math_prompts则是使用相同方法挖掘的代码提示词,并结合了UltraFeedback和数学提示词集。该数据集由@hamishivi整理,主要语言为英语,使用了多种许可证(ODC-BY、MIT、自定义许可证和Ai2低风险影响许可证)。该数据集旨在用于研究,特别是在使用在线RLHF方法训练模型时。
提供机构:
allenai
原始信息汇总

Tulu 2.5 Prompts Dataset

数据集详情

该数据集包含用于训练PPO模型的提示集合,这些模型在论文《Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback》中描述。数据集仅包含PPO训练期间使用的提示。

提示描述

  • gsm8k_prompts: 来自GSM8k train split的提示。
  • ultrafeedback_prompts: 来自cleaned UltraFeedback数据集的提示。
  • math_prompts: 从UltraFeedbackWildChatLMSYS 1M中挖掘的数学相关提示,通过提示Tulu 2 70B识别。更多细节请阅读论文附录。
  • ultrafeedback_code_math_prompts: 使用与数学提示相同的方法挖掘的代码提示,结合了UltraFeedback和数学提示集。这是在探索提示效果时使用的“混合”提示集。

进一步详情

  • 策划者: @hamishivi
  • 语言: 英语
  • 许可证: ODC-BY。注意GSM8k和UltraFeedback的许可证为MIT,LMSYS为自定义许可证,WildChat为Ai2低风险影响许可证。

用途

该数据集旨在用于研究,特别是在使用在线RLHF方法训练模型时,仅涉及未标记的提示。

引用

如果您发现此数据有用,请引用:

bibtex @misc{ivison2024unpacking, title={{Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback}}, author={{Hamish Ivison and Yizhong Wang and Jiacheng Liu and Ellen Wu and Valentina Pyatkin and Nathan Lambert and Yejin Choi and Noah A. Smith and Hannaneh Hajishirzi}} year={2024}, eprint={2406.09279}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作