sft-data-clean
收藏Hugging Face2026-01-25 更新2026-01-26 收录
下载链接:
https://huggingface.co/datasets/OpenTransformer/sft-data-clean
下载链接
链接失效反馈官方服务:
资源简介:
OpenTransformer SFT数据(清洗版)是一个用于指令调优的清洗和标准化的SFT数据集,采用ShareGPT格式。数据集包含来自databricks/dolly-15k的14,867个人工编写的指令数据样本。数据经过标准化转换、文本清洗、去重和质量过滤等处理,确保数据的高质量和一致性。
创建时间:
2026-01-13
原始信息汇总
OpenTransformer SFT Data (Clean) 数据集概述
数据集基本信息
- 数据集名称: OpenTransformer SFT Data (Clean)
- 托管地址: https://huggingface.co/datasets/OpenTransformer/sft-data-clean
- 许可证: CC-BY-SA-3.0
- 任务类别: 文本生成、对话
- 主要语言: 英语
- 标签: SFT、指令微调、ShareGPT、已清洗
- 数据规模: 10K<n<100K
数据集描述
这是一个为指令微调准备的、经过清洗和标准化的SFT数据集,采用ShareGPT格式。
数据格式
所有数据集均已转换为标准的ShareGPT格式: json {"conversations": [{"from": "human", "value": "..."}, {"from": "gpt", "value": "..."}]}
文件内容
| 文件 | 来源 | 样本数量 | 描述 |
|---|---|---|---|
dolly-15k-sharegpt.jsonl |
databricks/dolly-15k | 14,867 | 人工编写的指令数据 |
数据清洗流程
清洗脚本 sft_cleaner.py 执行以下步骤:
- 检测输入格式(Alpaca、OpenAI、ShareGPT等)
- 转换为标准ShareGPT格式
- 清洗文本(空格、编码问题)
- 去除重复项(MD5哈希)
- 质量过滤(最小长度等)
使用方法
python from datasets import load_dataset ds = load_dataset("OpenTransformer/sft-data-clean", data_files="dolly-15k-sharegpt.jsonl")
或使用清洗器处理任何数据集: bash python sft_cleaner.py "dataset/name" "output.jsonl"
许可证说明
Dolly-15k数据遵循CC-BY-SA-3.0许可证(由Databricks提供)。
搜集汇总
数据集介绍

构建方式
在指令微调研究领域,数据质量直接影响模型性能。该数据集通过自动化清洗流程构建,首先识别多种原始格式如Alpaca、OpenAI和ShareGPT,随后统一转换为标准化的ShareGPT结构。清洗过程涵盖文本规范化处理,包括去除冗余空白、修复编码问题,并基于MD5哈希值消除重复样本。最后应用质量过滤机制,例如设定最小长度阈值,确保数据集的整洁性与一致性。
特点
该数据集以ShareGPT格式为核心特征,所有对话均以结构化JSON对象呈现,包含人类指令与模型回应对。其突出优势在于经过多重清洗步骤,有效提升了数据的纯净度与可用性。数据集规模适中,涵盖数万条样本,专为指令微调任务设计,支持高效加载与处理。作为开源项目的一部分,该资源遵循明确许可协议,便于学术与工业界安全使用。
使用方法
使用者可通过Hugging Face的datasets库直接加载数据集,指定具体文件路径即可获取清洗后的对话数据。数据集支持灵活扩展,用户亦可运行附带的清洗脚本,将自定义数据转换为标准化格式。该方法简化了预处理环节,使研究人员能够专注于模型训练与评估。数据集适用于文本生成与会话任务,为指令微调研究提供了可靠的基础资源。
背景与挑战
背景概述
随着大型语言模型在自然语言处理领域的快速发展,指令微调成为提升模型遵循人类指令能力的关键技术。sft-data-clean数据集由OpenTransformers研究项目于近期构建,旨在提供经过清洗和标准化的监督微调数据,以ShareGPT格式统一呈现。该数据集基于Databricks发布的dolly-15k人类撰写指令数据,通过系统化处理流程,为研究人员和开发者提供了高质量、可直接用于模型训练的语料资源,推动了指令对齐模型的优化与部署。
当前挑战
在指令微调领域,核心挑战在于获取多样化、高质量且无偏见的对话数据,以训练模型准确理解并执行复杂的人类指令。sft-data-clean数据集构建过程中,面临原始数据格式异构、文本噪声干扰以及重复样本剔除等难题。通过设计自动化清洗管道,实现了多格式转换、编码修复和基于哈希的去重,但如何平衡过滤阈值以保留语义丰富性,同时避免信息损失,仍是持续优化的方向。
常用场景
经典使用场景
在自然语言处理领域,指令微调已成为提升大型语言模型遵循人类指令能力的关键技术。sft-data-clean数据集通过提供经过清洗和标准化的对话数据,为研究人员和开发者构建了一个高质量的指令微调基准。该数据集以ShareGPT格式呈现,包含多轮人类与AI助手的对话记录,能够直接用于训练模型理解复杂指令并生成连贯、有用的回应。其经典使用场景包括在开源或专有语言模型上进行监督微调,以优化模型在特定任务上的表现,例如问答、文本摘要和代码生成等。
实际应用
在实际应用层面,sft-data-clean数据集为开发定制化AI助手提供了核心训练素材。企业可利用该数据集微调基础语言模型,快速构建面向客服、教育或创意写作等垂直领域的专业对话系统。其清洗后的高质量对话数据能够显著提升模型输出的相关性和准确性,降低后续人工审核的成本。此外,数据集的标准化格式简化了工程集成流程,使得团队能够更高效地迭代和部署模型,加速了从研究原型到生产应用的转化过程。
衍生相关工作
围绕sft-data-clean数据集,已衍生出多项重要的研究工作。例如,基于其清洗流程的改进方法被应用于构建更大规模的指令数据集,进一步提升了数据集的覆盖范围和多样性。同时,该数据集常作为基准测试的一部分,用于评估不同微调算法(如LoRA、QLoRA)的效率与效果。一些开源项目也以其为起点,开发了更复杂的对话状态跟踪或安全对齐技术,推动了整个指令微调生态系统的工具链完善与理论深化。
以上内容由遇见数据集搜集并总结生成



