botp/Azure99_blossom-chat-v3

Name: botp/Azure99_blossom-chat-v3
Creator: botp
Published: 2024-04-21 15:43:39
License: 暂无描述

Hugging Face2024-04-21 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/botp/Azure99_blossom-chat-v3

下载链接

链接失效反馈

官方服务：

资源简介：

Blossom Chat V3是一个基于ShareGPT 90K的中英双语对话数据集，适用于多轮对话微调。该数据集完全使用GPT-4进行蒸馏，解决了中文对话数据量较少和输出截断问题。数据集中中英文数据按照约1:1的比例混合，每条数据代表一个完整的多轮对话，包含id和conversations两个字段。conversations字段包含role和content，分别代表用户输入和助手输出。数据集存在多轮对话不连贯和回答不准确的问题。

Blossom Chat V3 is a Chinese-English bilingual dialogue dataset based on the ShareGPT 90K corpus, tailored for multi-turn dialogue fine-tuning. This dataset is fully distilled using GPT-4, addressing the challenges of limited scale of Chinese dialogue data and output truncation. The dataset mixes Chinese and English data at an approximate 1:1 ratio. Each entry represents a complete multi-turn dialogue, containing two fields: "id" and "conversations". The "conversations" field includes "role" and "content", which respectively denote user inputs and assistant outputs. Nevertheless, the dataset suffers from issues including incoherent multi-turn dialogues and inaccurate responses.

提供机构：

botp

原始信息汇总

数据集概述

数据集名称

BLOSSOM CHAT V3

数据集来源

基于ShareGPT 90K衍生而来，专门用于中英双语多轮对话微调。

数据集特点

完全使用GPT-4进行蒸馏。
解决了中文对话数据量较少和ChatGPT生成长度限制导致的输出截断问题。
本次发布的数据量为全量数据的50%，包含5K记录。

语言

数据集主要包含中文和英文，两者按照约1:1的比例混合。

数据集结构

id：从1开始递增的唯一标识。
conversations：包含多个对象的数组，每个对象有role和content两个字段。
- role：取值为user或assistant，分别代表用户输入和助手输出。
- content：对应的内容。

数据集限制

可能存在多轮对话不连贯的情况，特别是在涉及随机性的对话中。
所有响应由gpt-4-0125-preview生成，未经过严格的数据校验，可能包含不准确甚至严重错误的回答。

搜集汇总

数据集介绍

构建方式

Blossom Chat V3数据集的构建，是在ShareGPT 90K的基础上，通过GPT-4进行指令翻译和迭代调用，以解决中文对话数据量不足和输出截断问题。数据集选取了多轮对话的指令进行翻译，并通过GPT-4生成响应，最终形成了包含5K记录的全量数据的50%。每条数据由id和conversations组成，后者为包含role和content字段的数组，清晰标识了对话的参与者和内容。

特点

该数据集的特点在于，它是一个中英双语对话数据集，旨在服务于多轮对话的微调。数据集中文英文比例约为1:1，充分考虑了语言平衡性。此外，数据集专注于多轮对话，提供了丰富的交互场景，尽管可能存在由随机性导致的对话不连贯问题，以及未经严格校验的生成回答的准确性问题。

使用方法

在使用Blossom Chat V3数据集时，用户可以将其应用于对话系统的微调，以提高多轮对话的质量和连贯性。数据集的json格式便于处理和集成。然而，需要注意的是，由于数据集中可能存在不准确或错误的回答，用户在应用前应对数据进行额外的校验和清洗。

背景与挑战

背景概述

Blossom Chat V3数据集，作为一项重要的自然语言处理研究资源，诞生于对高质量中英双语对话数据集的迫切需求。该数据集由ShareGPT 90K发展而来，由专业的研发团队采用先进的技术手段，在2023之前完成。其核心研究问题是解决中文对话数据量的不足以及输出截断的问题，对于推动中文自然语言处理领域的研究具有显著的影响力。该数据集的发布，不仅丰富了对话系统的训练资源，也为相关研究提供了新的视角和工具。

当前挑战

尽管Blossom Chat V3数据集在解决中文对话数据不足方面取得了进展，但构建过程中仍面临诸多挑战。首先，数据集抽取了原始多轮对话的输入，可能导致某些涉及随机性的对话不连贯，影响数据质量。其次，数据集中所有的响应均由gpt-4-0125-preview生成，未经严格校验，可能含有不准确或错误的内容。这些挑战对数据集的应用和后续研究提出了更高的要求，需要不断的优化和改进。

常用场景

经典使用场景

在自然语言处理领域，botp/Azure99_blossom-chat-v3数据集的典型应用场景是作为多轮对话系统的微调数据源。该数据集通过提供丰富的中英双语对话实例，辅助模型更好地理解和生成符合人类交流习惯的自然语言。

衍生相关工作

基于此数据集，学术界和工业界已衍生出多项经典工作，如对话系统的性能评估、多模态交互研究以及对话生成模型的创新架构设计，进一步推动了自然语言处理领域的发展。

数据集最近研究