abhinand/ultrachat_200k_sharegpt

Name: abhinand/ultrachat_200k_sharegpt
Creator: abhinand
Published: 2024-02-09 13:53:16
License: 暂无描述

Hugging Face2024-02-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/abhinand/ultrachat_200k_sharegpt

下载链接

链接失效反馈

官方服务：

资源简介：

UltraChat 200k数据集是从原始的UltraChat数据集中经过过滤和转换而来的，用于训练Zephyr-7B-β模型。原始数据集包含1.4M个由ChatGPT生成的对话，涵盖了广泛的主题。通过选择子集、修正语法错误和删除不符合要求的对话，生成了UltraChat 200k数据集。数据集结构包括四个部分，适用于监督微调和生成排名。数据集以parquet格式存储，每个条目包含prompt、prompt_id和conversations字段。

提供机构：

abhinand

原始信息汇总

数据集概述

数据集描述

这是一个经过严格筛选的UltraChat数据集版本，用于训练Zephyr-7B-β，一个先进的7亿参数聊天模型。

原始数据集包含140万条由ChatGPT生成的对话，涵盖广泛的主题。为了创建UltraChat 200k，我们采用了以下逻辑：

选择数据子集以加快监督微调。
对数据集进行大小写修正，因为我们观察到约5%的数据包含语法错误，如“Hello. how are you?”而不是“Hello. How are you?”。
删除助手回复中包含“I do not have emotions”或“I dont have opinions”等短语的对话，即使在基于事实的提示中不涉及这些内容。

数据集结构

数据集包含四个部分，适用于：

监督微调（sft）。
生成排序（gen），通过拒绝采样或PPO等技术。

各部分的示例数量如下：

train_sft	test_sft	train_gen	test_gen
207865	23110	256032	28304

数据集以parquet格式存储，每个条目使用以下模式：

json { "prompt": "Create a fully-developed protagonist who is challenged to survive within a dystopian society under the rule of a tyrant. ...", "messages":[ { "content": "Create a fully-developed protagonist who is challenged to survive within a dystopian society under the rule of a tyrant. ...", "role": "user" }, { "content": "Name: Ava

Ava was just 16 years old when the world as she knew it came crashing down. The government had collapsed, leaving behind a chaotic and lawless society. ...", "role": "assistant" }, { "content": "Wow, Avas story is so intense and inspiring! Can you provide me with more details. ...", "role": "user" }, { "content": "Certainly! ....", "role": "assistant" }, { "content": "Thats really interesting! I would love to hear more...", "role": "user" }, { "content": "Certainly! ....", "role": "assistant" } ], "prompt_id": "d938b65dfe31f05f80eb8572964c6673eddbd68eff3db6bd234d7f1e3b86c2af" }

搜集汇总

数据集介绍

构建方式

UltraChat 200k数据集的构建，是在原始UltraChat数据集的基础上进行的深度筛选与格式转换。该数据集以ChatGPT生成的140万对话为基础，经过精心挑选，形成了包含20万对话的子集，旨在为监督微调提供更高效的数据支持。数据集构建过程中，还进行了大小写规范化的处理，以提高数据质量，并排除了含有不符合事实性回答的对话，确保对话内容的相关性和准确性。

使用方法

在使用UltraChat 200k数据集时，用户可以根据不同的训练需求选择相应的子集。例如，监督微调可以使用train_sft和test_sft子集，而生成排序则可以使用train_gen和test_gen子集。数据集的Parquet格式支持高效的读写操作，便于大规模数据处理。用户在训练过程中，需要根据数据集中的提示和对话内容设计模型输入，并针对模型输出的优化进行相应的数据处理和评估。

背景与挑战

背景概述

UltraChat 200k ShareGPT数据集，是在自然语言处理领域，尤其是对话系统研究领域中，由HuggingFace团队基于原始UltraChat数据集进行筛选和格式转换后的成果。该数据集创建于2023年，主要研究人员包括Ning Ding、Yulin Chen等，他们在对话系统的质量和规模上进行了一系列的探索。该数据集的核心研究问题是提升对话模型的质量和实用性，通过筛选高质量对话样本，对Zephyr-7B-β等先进对话模型进行监督微调，对对话系统的性能优化产生了显著影响。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何从庞大的原始数据集中筛选出高质量且适合微调的子集，确保数据的准确性和多样性；如何处理数据中的语法错误，以提高数据集的整体质量；以及如何有效去除不符合要求的对话内容，如含有无关情感或意见表达的对话。此外，所解决的领域问题是提升对话系统的交互质量和自然度，面对的挑战是如何使模型更好地理解和生成符合人类交流习惯的对话。

常用场景

经典使用场景

在自然语言处理领域，对话生成模型的研究与应用日益受到重视。UltraChat 200k ShareGPT数据集，作为对话数据集的典范，其经典使用场景主要在于对话模型的监督微调与生成排序。通过该数据集，研究者能够对对话模型进行高效的微调，以提升模型在实际对话中的表现，同时也能够通过生成排序技术，如拒绝采样或PPO，优化模型生成的对话内容的质量。

解决学术问题

该数据集在学术界解决了对话系统训练中的多个问题。首先，通过筛选高质量的对话数据，减少了训练过程中的噪音，提高了模型的泛化能力。其次，数据集中的真实对话场景覆盖广泛，有助于模型理解并应对多样化的对话情境。此外，该数据集的预处理，如真值大小写转换，进一步提升了数据的一致性和准确性，为研究提供了坚实的基础。

实际应用

在实际应用中，UltraChat 200k ShareGPT数据集可被用于开发智能对话系统，如虚拟助手、在线客服等。这些系统能够基于该数据集进行训练，以实现更自然、准确的用户交互。此外，该数据集也为内容生成领域提供了丰富的语料，有助于创作具有深度和连贯性的对话内容。

数据集最近研究