HuggingFaceTB_smoltalk-DolphinLabeled

Name: HuggingFaceTB_smoltalk-DolphinLabeled
Creator: Cognitive Computations
Published: 2025-01-06 12:38:37
License: 暂无描述

Hugging Face2025-01-06 更新2025-01-07 收录

下载链接：

https://huggingface.co/datasets/cognitivecomputations/HuggingFaceTB_smoltalk-DolphinLabeled

下载链接

链接失效反馈

官方服务：

资源简介：

HuggingFaceTB smoltalk DolphinLabeled数据集是HuggingFaceTB/smoltalk数据集的过滤版本，旨在通过去除重复内容和添加标签列来改进数据集。原始数据集SmolTalk是一个用于监督微调（SFT）大型语言模型（LLMs）的合成数据集，包含100万样本。该数据集通过结合新的合成数据集和现有公共数据集，旨在提高模型在文本编辑、重写、摘要和推理等任务上的表现。数据集包括多个子集，如Smol-Magpie-Ultra、Smol-contraints、Smol-rewrite和Smol-summarize，以及多个公共数据集如OpenHermes2.5、MetaMathQA等。所有新数据集均采用Apache 2.0许可证。

提供机构：

Cognitive Computations

创建时间：

2025-01-06

搜集汇总

数据集介绍

构建方式

HuggingFaceTB_smoltalk-DolphinLabeled数据集的构建基于HuggingFaceTB/smoltalk数据集，通过两个关键脚本进行修改。首先，dedupe.py脚本用于去除重复的最终消息内容，确保数据的唯一性。其次，label.py脚本为数据集添加了一个“flags”列，该列包含多个布尔值标签，如“refusal”、“unsolicited”、“nsfw”、“pii”和“disclaimer”，这些标签通过Deepseek-V3生成，并过滤了不到1%的拒绝回答行。

特点

该数据集的特点在于其丰富的标签系统，能够有效识别和分类不同类型的对话内容。通过引入“flags”列，数据集不仅能够帮助模型识别拒绝回答、未经请求的建议、不适宜内容、个人身份信息和免责声明等关键信息，还能为模型训练提供更精细的指导。此外，数据集的构建过程严格遵循去重和标签生成的标准，确保了数据的高质量和一致性。

使用方法

使用HuggingFaceTB_smoltalk-DolphinLabeled数据集时，可以通过HuggingFace的datasets库进行加载。用户只需指定数据集名称和所需的分割（如train），即可轻松获取数据。例如，使用`load_dataset("HuggingFaceTB/smoltalk", "all", split="train")`加载训练集。该数据集适用于监督微调任务，特别是在需要处理复杂对话场景时，能够显著提升模型的指令遵循能力和内容理解能力。

背景与挑战

背景概述

HuggingFaceTB_smoltalk-DolphinLabeled数据集是由Eric Hartford和Cognitive Computations团队于2024年推出的，旨在为大语言模型（LLMs）的监督微调（SFT）提供支持。该数据集是DolphinLabeled系列的一部分，主要用于过滤HuggingFaceTB/smoltalk数据集中的内容。通过使用Deepseek-V3生成标签，数据集对拒绝、未经请求的建议、NSFW内容、个人身份信息（PII）以及免责声明等进行了标注。该数据集的创建背景源于现有公开SFT数据集在模型微调中的表现不佳，尤其是在指令遵循和多样化任务处理方面。通过引入新的合成数据集，研究团队成功提升了模型在文本编辑、重写、摘要和推理等任务中的表现。

当前挑战

HuggingFaceTB_smoltalk-DolphinLabeled数据集在构建和应用过程中面临多重挑战。首先，数据集的标注依赖于Deepseek-V3系统，尽管其拒绝回答的比例低于1%，但仍存在一定的误差风险，尤其是在处理复杂或模糊的指令时。其次，数据集的多样性虽然提升了模型的多任务处理能力，但也增加了数据清洗和过滤的难度，特别是在避免重复数据和确保数据质量方面。此外，数据集的合成性质可能导致模型在真实场景中的泛化能力受限，尤其是在处理未见过的新任务时。最后，数据集的规模较大，对计算资源和存储需求提出了较高要求，这在实际应用中可能成为限制因素。

常用场景

经典使用场景

HuggingFaceTB_smoltalk-DolphinLabeled数据集主要用于对HuggingFaceTB/smoltalk数据集进行过滤和标注。通过对数据集中的重复内容进行去重，并添加了多个布尔标签（如拒绝、未经请求的建议、NSFW内容等），该数据集为研究人员提供了一个更加精细和结构化的数据源，特别适用于监督微调（SFT）任务。

解决学术问题

该数据集解决了在公开监督微调数据集上训练的模型表现不佳的问题。通过生成新的合成数据集，并结合多样化的任务（如文本编辑、重写、摘要和推理），显著提升了模型在指令跟随方面的能力。此外，通过数据消融实验，进一步增强了模型在数学、编码、系统提示和长上下文理解等特定能力上的表现。

衍生相关工作

该数据集衍生了一系列经典工作，特别是在SmolLM2模型的开发中发挥了关键作用。通过结合Smol-Magpie-Ultra等新数据集和OpenHermes2.5、MetaMathQA等公开数据集，研究人员成功训练出了在多个基准测试中表现优异的模型。此外，该数据集还为后续的模型优化和任务扩展提供了重要的数据支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集