five

Open-Orca/slimorca-deduped-cleaned-corrected

收藏
Hugging Face2024-05-09 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Open-Orca/slimorca-deduped-cleaned-corrected
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Slim Orca Deduped数据集的一半,但经过了进一步的清理,移除了软提示的实例。清理过程包括移除大量不增加信息或冗余的提示前缀(如Question:, Q:, Write the Answer:等)和提示后缀(如The answer is..., Answer:, A:等)。清理的目的是减少模型处理的不必要标记,并避免模型过度训练。

该数据集是Slim Orca Deduped数据集的一半,但经过了进一步的清理,移除了软提示的实例。清理过程包括移除大量不增加信息或冗余的提示前缀(如Question:, Q:, Write the Answer:等)和提示后缀(如The answer is..., Answer:, A:等)。清理的目的是减少模型处理的不必要标记,并避免模型过度训练。
提供机构:
Open-Orca
原始信息汇总

数据集概述

数据集名称

Slim Orca Deduped 数据集的半数版本,经过进一步清理。

数据集内容

该数据集通过移除软提示实例进行了清理,具体包括:

  • 移除了大量不增加信息或冗余的提示前缀,如 "Question:", "Q:", "Write the Answer:", "Read this:", "Instructions:"。
  • 移除了大量仅用于引导模型预期回答的提示后缀,如 "The answer is...", "Answer:", "A:", "Summary:", "Output:", "Highlight:"。

清理原因

  • 提示前缀的移除是因为它们消耗了模型处理的令牌,且在数千个提示中重复,可能导致模型过度训练。
  • 提示后缀的移除是因为它们过度依赖基础模型的原始完成行为,且非常重复。

许可证

MIT 许可证

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作