botp/Azure99_blossom-chat-v3
收藏Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/botp/Azure99_blossom-chat-v3
下载链接
链接失效反馈官方服务:
资源简介:
Blossom Chat V3是一个基于ShareGPT 90K的中英双语对话数据集,适用于多轮对话微调。该数据集完全使用GPT-4进行蒸馏,解决了中文对话数据量较少和输出截断问题。数据集中中英文数据按照约1:1的比例混合,每条数据代表一个完整的多轮对话,包含id和conversations两个字段。conversations字段包含role和content,分别代表用户输入和助手输出。数据集存在多轮对话不连贯和回答不准确的问题。
Blossom Chat V3 is a Chinese-English bilingual dialogue dataset based on the ShareGPT 90K corpus, tailored for multi-turn dialogue fine-tuning. This dataset is fully distilled using GPT-4, addressing the challenges of limited scale of Chinese dialogue data and output truncation. The dataset mixes Chinese and English data at an approximate 1:1 ratio. Each entry represents a complete multi-turn dialogue, containing two fields: "id" and "conversations". The "conversations" field includes "role" and "content", which respectively denote user inputs and assistant outputs. Nevertheless, the dataset suffers from issues including incoherent multi-turn dialogues and inaccurate responses.
提供机构:
botp
原始信息汇总
数据集概述
数据集名称
BLOSSOM CHAT V3
数据集来源
基于ShareGPT 90K衍生而来,专门用于中英双语多轮对话微调。
数据集特点
- 完全使用GPT-4进行蒸馏。
- 解决了中文对话数据量较少和ChatGPT生成长度限制导致的输出截断问题。
- 本次发布的数据量为全量数据的50%,包含5K记录。
语言
数据集主要包含中文和英文,两者按照约1:1的比例混合。
数据集结构
- id:从1开始递增的唯一标识。
- conversations:包含多个对象的数组,每个对象有
role和content两个字段。role:取值为user或assistant,分别代表用户输入和助手输出。content:对应的内容。
数据集限制
- 可能存在多轮对话不连贯的情况,特别是在涉及随机性的对话中。
- 所有响应由gpt-4-0125-preview生成,未经过严格的数据校验,可能包含不准确甚至严重错误的回答。
搜集汇总
数据集介绍

构建方式
Blossom Chat V3数据集的构建,是在ShareGPT 90K的基础上,通过GPT-4进行指令翻译和迭代调用,以解决中文对话数据量不足和输出截断问题。数据集选取了多轮对话的指令进行翻译,并通过GPT-4生成响应,最终形成了包含5K记录的全量数据的50%。每条数据由id和conversations组成,后者为包含role和content字段的数组,清晰标识了对话的参与者和内容。
特点
该数据集的特点在于,它是一个中英双语对话数据集,旨在服务于多轮对话的微调。数据集中文英文比例约为1:1,充分考虑了语言平衡性。此外,数据集专注于多轮对话,提供了丰富的交互场景,尽管可能存在由随机性导致的对话不连贯问题,以及未经严格校验的生成回答的准确性问题。
使用方法
在使用Blossom Chat V3数据集时,用户可以将其应用于对话系统的微调,以提高多轮对话的质量和连贯性。数据集的json格式便于处理和集成。然而,需要注意的是,由于数据集中可能存在不准确或错误的回答,用户在应用前应对数据进行额外的校验和清洗。
背景与挑战
背景概述
Blossom Chat V3数据集,作为一项重要的自然语言处理研究资源,诞生于对高质量中英双语对话数据集的迫切需求。该数据集由ShareGPT 90K发展而来,由专业的研发团队采用先进的技术手段,在2023之前完成。其核心研究问题是解决中文对话数据量的不足以及输出截断的问题,对于推动中文自然语言处理领域的研究具有显著的影响力。该数据集的发布,不仅丰富了对话系统的训练资源,也为相关研究提供了新的视角和工具。
当前挑战
尽管Blossom Chat V3数据集在解决中文对话数据不足方面取得了进展,但构建过程中仍面临诸多挑战。首先,数据集抽取了原始多轮对话的输入,可能导致某些涉及随机性的对话不连贯,影响数据质量。其次,数据集中所有的响应均由gpt-4-0125-preview生成,未经严格校验,可能含有不准确或错误的内容。这些挑战对数据集的应用和后续研究提出了更高的要求,需要不断的优化和改进。
常用场景
经典使用场景
在自然语言处理领域,botp/Azure99_blossom-chat-v3数据集的典型应用场景是作为多轮对话系统的微调数据源。该数据集通过提供丰富的中英双语对话实例,辅助模型更好地理解和生成符合人类交流习惯的自然语言。
衍生相关工作
基于此数据集,学术界和工业界已衍生出多项经典工作,如对话系统的性能评估、多模态交互研究以及对话生成模型的创新架构设计,进一步推动了自然语言处理领域的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,对话系统的微调与优化始终是研究的热点。BLOSSOM CHAT V3数据集的推出,正是针对当前中文对话数据不足及输出截断问题的重要尝试。该数据集基于先进的GPT-4模型进行蒸馏,为研究者提供了高质量的中英双语多轮对话资源,有助于推动对话系统的性能提升。在当前多轮对话系统的研究前沿,该数据集的发布不仅丰富了训练数据,也为研究深度学习模型在对话生成任务上的应用提供了新的视角,对提升中文对话系统的流畅性和准确性具有重要意义。
以上内容由遇见数据集搜集并总结生成



