YeungNLP/moss-003-sft-data
收藏Hugging Face2023-06-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/YeungNLP/moss-003-sft-data
下载链接
链接失效反馈官方服务:
资源简介:
本数据集可用于中文多轮对话指令微调,包含110万中英文多轮对话数据。该数据集来自MOSS项目中的moss-003-sft-data数据集。在原数据集的基础上,我们去除了冗余信息,仅提取出有效的对话信息,并且调整数据格式,以便在训练中更加灵活地组织数据格式。
This dataset is suitable for instruction fine-tuning of Chinese multi-turn dialogues, and contains 1.1 million Chinese-English multi-turn dialogue samples. It is derived from the moss-003-sft-data dataset within the MOSS project. Based on the original dataset, we removed redundant information, retained only valid dialogue content, and adjusted the data format to allow more flexible organization of data during training.
提供机构:
YeungNLP
原始信息汇总
数据集概述
数据集名称
- moss-003-sft-data
数据集用途
- 用于中文多轮对话指令微调。
数据集内容
- 包含110万中英文多轮对话数据。
- 数据来源于MOSS项目中的moss-003-sft-data数据集。
数据集处理
- 去除冗余信息,提取有效对话信息。
- 调整数据格式,以适应训练中的数据组织需求。
数据集格式
- jsonl格式
- 每行包含一个多轮对话数据,具体格式如下: json { "conversation_id":1, "category":"Brainstorming", "conversation":[ { "human":"对话内容", "assistant":"对话内容" }, ... ] }
数据集示例
- 示例对话涉及安全准则、紧急情况应对、网络安全、网络连接安全及金融机构数据安全等主题。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,大规模高质量对话数据是驱动模型性能提升的关键。本数据集源自MOSS项目,通过精心筛选与重构原始多轮对话内容,剔除了冗余信息,仅保留核心对话序列。构建过程中,采用自动化流程提取有效对话对,并统一转换为结构化的JSONL格式,确保每条记录包含对话标识、主题分类及完整轮次交互,为指令微调任务提供了标准化且易于处理的数据基础。
特点
该数据集以其丰富的中英文双语多轮对话资源脱颖而出,涵盖从头脑风暴到专业咨询的多元主题,体现了广泛的现实应用场景。其独特之处在于对话结构的完整性,每轮交互均严格遵循人类提问与助手回复的配对模式,且内容经过净化处理,避免了噪声干扰。数据规模达百万级别,兼具深度与广度,为模型训练提供了均衡且高质量的语料支撑。
使用方法
在模型微调实践中,本数据集可直接加载为JSONL格式,通过逐行解析获取对话标识、类别及完整对话序列。使用者可依据任务需求,灵活提取单轮或多轮对话作为输入输出对,适配不同训练框架。建议在预处理阶段结合分词工具对文本进行标准化,并可根据分类字段实施领域细分训练,以优化模型在特定场景下的指令遵循与多轮交互能力。
背景与挑战
背景概述
在自然语言处理领域,多轮对话系统的构建一直是人工智能研究的前沿课题,旨在模拟人类复杂、连贯的交流能力。由OpenLMLab团队于2023年发布的MOSS项目,其衍生的moss-003-sft-data数据集,作为一项重要的开源资源,专门针对中文多轮对话指令微调任务而设计。该数据集汇聚了110万条中英文多轮对话实例,覆盖了从头脑风暴到专业咨询的广泛主题,为大型语言模型的监督微调提供了丰富、结构化的训练材料。其创建不仅推动了对话生成技术的实用化进程,也为中文语境下的人机交互研究奠定了坚实的数据基础,显著促进了开源社区在对话人工智能领域的协作与创新。
当前挑战
该数据集致力于解决开放域多轮对话生成中的核心挑战,即如何使模型在长序列交互中保持上下文一致性、逻辑连贯性,并生成符合人类价值观的安全响应。构建过程中的挑战尤为突出:原始数据常包含冗余或噪声信息,需通过精细清洗与格式重构来提取有效对话内容,确保数据质量与训练效率;同时,平衡中英文语料的比例与质量,以支持跨语言泛化能力,也是一项复杂任务。此外,对话涉及的领域广泛性要求数据标注具备高度的准确性与多样性,这对数据集的构建标准提出了严格的技术与伦理要求。
常用场景
经典使用场景
在自然语言处理领域,多轮对话指令微调是提升模型交互能力的关键环节。该数据集凭借其110万中英文多轮对话的丰富资源,为研究者提供了经典的使用场景:通过监督式微调训练,优化大型语言模型在复杂对话任务中的表现。数据集覆盖了从头脑风暴到专业咨询的多样化主题,使得模型能够学习到连贯、深入且符合人类偏好的响应模式,从而在对话生成、知识问答等任务中展现出卓越的适应性。
解决学术问题
该数据集有效应对了对话系统研究中长期存在的挑战,如上下文连贯性缺失、领域知识整合不足等问题。通过提供高质量的多轮对话样本,它支持模型学习长期依赖关系与逻辑推理,促进了开放域对话与任务导向对话的统一建模。其意义在于推动了对话人工智能向更自然、更智能的方向发展,为学术社区提供了基准数据,加速了对话生成、意图识别等核心技术的突破。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,包括MOSS项目本身及其后续迭代,这些工作探索了指令微调在中文对话模型中的优化策略。此外,社区基于该数据开展了对话安全性增强、多语言对齐等研究,推动了如安全对齐、少样本学习等技术的发展。这些衍生工作不仅丰富了对话人工智能的学术成果,还为开源社区提供了可复现的实践案例,促进了整个领域的协同进步。
以上内容由遇见数据集搜集并总结生成



