cgato/SlimOrcaDedupCleaned
收藏Hugging Face2024-03-26 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/cgato/SlimOrcaDedupCleaned
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Slim Orca Deduped数据集的一半,但进一步清理了软提示实例。清理过程包括移除不增加信息或冗余的提示前缀(如“Question:”、“Q:”、“Write the Answer:”、“Read this:”、“Instructions:”)和引导模型回答的提示后缀(如“The answer is...”、“Answer:”、“A:”、“Summary:”、“Output:”、“Highlight:”)。清理的目的是减少模型处理的不必要标记,避免模型过度训练,并减少对基础模型原始完成行为的依赖。
提供机构:
cgato
原始信息汇总
数据集概述
数据集名称
Half of the Slim Orca Deduped dataset
数据集描述
该数据集是对原始Slim Orca Deduped数据集的一半进行了进一步的清理,主要移除了软提示(soft prompting)的实例。具体包括:
- 移除了大量不增加信息或冗余的提示前缀,如"Question:", "Q:", "Write the Answer:", "Read this:", "Instructions:"。
- 移除了大量旨在引导模型预期回答的提示后缀,如"The answer is...", "Answer:", "A:", "Summary:", "Output:", "Highlight:"。
清理原因
- 提示前缀被视为模型处理的无效令牌,且在数千个提示中重复,可能导致模型过度训练。
- 提示后缀过于依赖基础模型的原始完成行为,且非常重复。



