allenai/tulu-2.5-prompts
收藏Hugging Face2024-07-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/allenai/tulu-2.5-prompts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用于训练PPO模型的提示词集合,这些提示词来自多个不同的数据集,包括GSM8k、UltraFeedback、WildChat和LMSYS 1M等。具体来说,gsm8k_prompts来自GSM8k训练集,ultrafeedback_prompts来自清理后的UltraFeedback数据集,math_prompts是通过提示Tulu 2 70B模型从UltraFeedback、WildChat和LMSYS 1M中挖掘的数学相关示例,ultrafeedback_code_math_prompts则是使用相同方法挖掘的代码提示词,并结合了UltraFeedback和数学提示词集。该数据集由@hamishivi整理,主要语言为英语,使用了多种许可证(ODC-BY、MIT、自定义许可证和Ai2低风险影响许可证)。该数据集旨在用于研究,特别是在使用在线RLHF方法训练模型时。
该数据集包含了用于训练PPO模型的提示词集合,这些提示词来自多个不同的数据集,包括GSM8k、UltraFeedback、WildChat和LMSYS 1M等。具体来说,gsm8k_prompts来自GSM8k训练集,ultrafeedback_prompts来自清理后的UltraFeedback数据集,math_prompts是通过提示Tulu 2 70B模型从UltraFeedback、WildChat和LMSYS 1M中挖掘的数学相关示例,ultrafeedback_code_math_prompts则是使用相同方法挖掘的代码提示词,并结合了UltraFeedback和数学提示词集。该数据集由@hamishivi整理,主要语言为英语,使用了多种许可证(ODC-BY、MIT、自定义许可证和Ai2低风险影响许可证)。该数据集旨在用于研究,特别是在使用在线RLHF方法训练模型时。
提供机构:
allenai
原始信息汇总
Tulu 2.5 Prompts Dataset
数据集详情
该数据集包含用于训练PPO模型的提示集合,这些模型在论文《Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback》中描述。数据集仅包含PPO训练期间使用的提示。
提示描述
- gsm8k_prompts: 来自GSM8k train split的提示。
- ultrafeedback_prompts: 来自cleaned UltraFeedback数据集的提示。
- math_prompts: 从UltraFeedback、WildChat和LMSYS 1M中挖掘的数学相关提示,通过提示Tulu 2 70B识别。更多细节请阅读论文附录。
- ultrafeedback_code_math_prompts: 使用与数学提示相同的方法挖掘的代码提示,结合了UltraFeedback和数学提示集。这是在探索提示效果时使用的“混合”提示集。
进一步详情
- 策划者: @hamishivi
- 语言: 英语
- 许可证: ODC-BY。注意GSM8k和UltraFeedback的许可证为MIT,LMSYS为自定义许可证,WildChat为Ai2低风险影响许可证。
用途
该数据集旨在用于研究,特别是在使用在线RLHF方法训练模型时,仅涉及未标记的提示。
引用
如果您发现此数据有用,请引用:
bibtex @misc{ivison2024unpacking, title={{Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback}}, author={{Hamish Ivison and Yizhong Wang and Jiacheng Liu and Ellen Wu and Valentina Pyatkin and Nathan Lambert and Yejin Choi and Noah A. Smith and Hannaneh Hajishirzi}} year={2024}, eprint={2406.09279}, archivePrefix={arXiv}, primaryClass={cs.CL} }



