Open-Orca/slimorca-deduped-cleaned-corrected
收藏Hugging Face2024-05-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Open-Orca/slimorca-deduped-cleaned-corrected
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Slim Orca Deduped数据集的一半,但经过了进一步的清理,移除了软提示的实例。清理过程包括移除大量不增加信息或冗余的提示前缀(如Question:, Q:, Write the Answer:等)和提示后缀(如The answer is..., Answer:, A:等)。清理的目的是减少模型处理的不必要标记,并避免模型过度训练。
该数据集是Slim Orca Deduped数据集的一半,但经过了进一步的清理,移除了软提示的实例。清理过程包括移除大量不增加信息或冗余的提示前缀(如Question:, Q:, Write the Answer:等)和提示后缀(如The answer is..., Answer:, A:等)。清理的目的是减少模型处理的不必要标记,并避免模型过度训练。
提供机构:
Open-Orca
原始信息汇总
数据集概述
数据集名称
Slim Orca Deduped 数据集的半数版本,经过进一步清理。
数据集内容
该数据集通过移除软提示实例进行了清理,具体包括:
- 移除了大量不增加信息或冗余的提示前缀,如 "Question:", "Q:", "Write the Answer:", "Read this:", "Instructions:"。
- 移除了大量仅用于引导模型预期回答的提示后缀,如 "The answer is...", "Answer:", "A:", "Summary:", "Output:", "Highlight:"。
清理原因
- 提示前缀的移除是因为它们消耗了模型处理的令牌,且在数千个提示中重复,可能导致模型过度训练。
- 提示后缀的移除是因为它们过度依赖基础模型的原始完成行为,且非常重复。
许可证
MIT 许可证



