cgato/SlimOrcaDedupCleaned

Name: cgato/SlimOrcaDedupCleaned
Creator: cgato
Published: 2024-03-26 18:45:26
License: 暂无描述

Hugging Face2024-03-26 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/cgato/SlimOrcaDedupCleaned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Slim Orca Deduped数据集的一半，但进一步清理了软提示实例。清理过程包括移除不增加信息或冗余的提示前缀（如“Question:”、“Q:”、“Write the Answer:”、“Read this:”、“Instructions:”）和引导模型回答的提示后缀（如“The answer is...”、“Answer:”、“A:”、“Summary:”、“Output:”、“Highlight:”）。清理的目的是减少模型处理的不必要标记，避免模型过度训练，并减少对基础模型原始完成行为的依赖。

提供机构：

cgato

原始信息汇总

数据集概述

数据集名称

Half of the Slim Orca Deduped dataset

数据集描述

该数据集是对原始Slim Orca Deduped数据集的一半进行了进一步的清理，主要移除了软提示（soft prompting）的实例。具体包括：

移除了大量不增加信息或冗余的提示前缀，如"Question:", "Q:", "Write the Answer:", "Read this:", "Instructions:"。
移除了大量旨在引导模型预期回答的提示后缀，如"The answer is...", "Answer:", "A:", "Summary:", "Output:", "Highlight:"。

清理原因

提示前缀被视为模型处理的无效令牌，且在数千个提示中重复，可能导致模型过度训练。
提示后缀过于依赖基础模型的原始完成行为，且非常重复。

5,000+

优质数据集

54 个

任务类型

进入经典数据集