fnlp/moss-002-sft-data

Hugging Face2023-04-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fnlp/moss-002-sft-data

下载链接

链接失效反馈

资源简介：

一个开源的对话数据集，用于训练MOSS-002模型。用户提示是基于一小部分人类编写的种子提示扩展的，类似于Self-Instruct方法。AI响应是使用`text-davinci-003`生成的。`en_harmlessness`部分的用户提示来自Anthropic red teaming数据。数据集包含英文和中文部分，分别涉及帮助性、诚实性和无害性。

提供机构：

fnlp

原始信息汇总

数据集概述

基本信息

名称: moss-002-sft-data
许可证: cc-by-4.0
任务类别:
- 对话
- 文本生成
语言:
- 英语
- 中文
数据集大小: 1M<n<10M

数据集描述

数据集概要: 这是一个开源的对话数据集，用于训练MOSS-002。用户提示基于一小部分人类编写的种子提示进行扩展，类似于Self-Instruct。AI响应使用text-davinci-003生成。en_harmlessness的用户提示来自Anthropic red teaming data。

数据分割

文件名	样本数量
en_helpfulness.json	419049
en_honesty.json	112580
en_harmlessness.json	38873
zh_helpfulness.json	447750
zh_honesty.json	142885

搜集汇总

数据集介绍

构建方式

该数据集fnlp/moss-002-sft-data的构建，是基于开源对话系统的训练需求而设计。它通过扩展一组由人工撰写的种子提示，模仿Self-Instruct的方法，实现了用户提示的生成。AI的响应则是通过text-davinci-003模型生成，确保了对话的自然性和流畅性。数据集涵盖了英语和中文两种语言，并根据不同的对话属性分为多个子集，如帮助性、诚实性和无害性等，每个子集均包含大量的样本，以供模型训练和评估。

使用方法

使用fnlp/moss-002-sft-data数据集时，用户可以根据具体的任务需求，选择相应的数据子集。数据集以JSON格式存储，便于读取和处理。用户可以借助HuggingFace提供的库，轻松地加载和预处理数据，进而应用于对话系统的训练、评估和优化。此外，数据集的开放性也允许用户根据自己的研究目的，进行扩展和二次开发。

背景与挑战

背景概述

在自然语言处理领域，对话系统的训练与发展日益受到重视。moss-002-sft-data数据集，创建于近年，由OpenLMLab团队主持开发，旨在为对话系统的训练提供高质量的数据资源。该数据集基于一系列人工撰写的种子提示，通过Self-Instruct类似的方法扩展用户提示，并利用text-davinci-003生成AI响应。该数据集不仅包含了英文数据，还涵盖了中文数据，总数据量达到2.16 GB，为研究者和开发者提供了宝贵的多语言对话数据资源，对推动相关领域的研究与发展具有显著影响。

当前挑战

moss-002-sft-data数据集在构建过程中，面临了如何有效扩展人工种子提示以及确保AI生成响应的质量与多样性等挑战。在解决领域问题上，数据集需要确保对话的自然性和连贯性，同时还要兼顾对用户意图的准确理解与响应。此外，构建过程中的挑战还包括数据量的平衡、多语言数据的处理，以及如何在遵守cc-by-4.0协议的前提下，保障数据的安全性和隐私性。

常用场景

经典使用场景

在自然语言处理领域，尤其是对话系统与文本生成任务中，'fnlp/moss-002-sft-data'数据集提供了丰富的语料资源。该数据集被广泛用于训练具有帮助性和诚实的对话模型，其独特的种子提示扩展机制，使得AI能够生成更加多样化和贴近人类对话风格的响应。

解决学术问题

该数据集解决了学术研究中对话系统生成质量不高、缺乏多样性和真实性的问题。通过引入人类编写的种子提示，并以此为基础扩展用户提示，有效提高了AI生成文本的相关性和多样性，为研究者在对话系统的质量和效率提升方面提供了重要支撑。

实际应用

在实际应用中，'fnlp/moss-002-sft-data'数据集助力开发出更加智能的对话助手，这些助手在客服、咨询、教育等多个领域得到应用，大幅提升了用户体验和服务效率。

数据集最近研究