ultra-chat_clean

Hugging Face2024-08-17 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/shareAI/ultra-chat_clean

下载链接

链接失效反馈

官方服务：

资源简介：

基于ultrachat原始数据集（英文，多轮对话）进行清洗过滤，去除拒绝回答、道歉、身份认知信息、代码、数学符号、网址和特殊符号等内容。数据集分为ultra-chat_clean.jsonl和ultra-chat_clean_common.jsonl两个版本，适用于多轮对话任务，格式为firefly，可转换为sharegpt格式。

创建时间：

2024-08-16

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别: 表格问答
语言: 英语
标签: 聊天
数据集大小: 100K<n<1M

数据集描述

该数据集是基于ultrachat原始数据集（英文，多轮对话）进行清洗过滤后的版本。数据集采用firefly格式，并提供了脚本用于转换为sharegpt格式的多轮对话数据集。

数据清洗规则

数据集通过以下关键词进行过滤：

安全对齐文本: "无法", "不能", "cant", "can not", "道德", "抱歉", "Sorry", "sorry"
身份认知信息: "GPT", "gpt", "openAI", "OpenAI", "openai"
代码、数学、符号等: "=", "*", "/", "#", "@", "", ".sh", ".py"
网址: "https://", "http://", "www."

数据文件

ultra-chat_clean.jsonl: 去除拒绝回答、道歉和身份认知信息后的样本。
ultra-chat_clean_common.jsonl: 进一步去除代码、数学、网址、特殊符号相关内容后的样本。

搜集汇总

数据集介绍

构建方式

ultra-chat_clean数据集是基于ultrachat原始数据集进行清洗和过滤后构建的。清洗过程中，通过设定一系列关键词和符号过滤规则，删除了包含拒绝回答、道歉、身份认知信息、代码、数学表达式、网址及特殊符号的对话内容。清洗后的数据集保留了高质量的英文多轮对话数据，并以firefly格式存储，用户可通过提供的脚本将其转换为更常用的sharegpt格式。

特点

ultra-chat_clean数据集的特点在于其高度净化的对话内容，避免了与安全对齐、身份认知、代码及符号相关的干扰信息。数据集分为两个版本：ultra-chat_clean.jsonl仅去除拒绝回答和身份认知信息，而ultra-chat_clean_common.jsonl进一步剔除了代码、数学、网址及特殊符号相关内容。这种分层设计使得数据集能够满足不同研究需求，同时确保了对话数据的自然性和实用性。

使用方法

使用ultra-chat_clean数据集时，用户可直接加载firefly格式的数据文件，或通过提供的脚本将其转换为sharegpt格式，以适应不同的多轮对话任务需求。该数据集适用于自然语言处理领域的研究，如对话系统开发、问答系统优化等。用户可根据研究目标选择不同版本的数据集，并结合具体任务进行进一步的数据处理或模型训练。

背景与挑战

背景概述

ultra-chat_clean数据集是基于ultrachat原始数据集进行清洗和过滤后得到的多轮对话数据集，旨在提供高质量的英文对话数据。该数据集的创建时间未明确提及，但其核心研究问题聚焦于如何通过数据清洗技术去除对话中的无效或敏感信息，从而提升对话系统的训练效果。这一数据集的出现，为自然语言处理领域的研究者提供了一个更为纯净的对话数据资源，有助于推动对话系统在理解和生成自然语言方面的进步。

当前挑战

ultra-chat_clean数据集在构建过程中面临的主要挑战包括如何有效识别并过滤掉对话中的拒绝回答、道歉、身份认知信息以及代码、数学符号、网址等非自然语言内容。这些内容的去除不仅需要精确的规则设计，还需确保过滤后的数据仍能保持对话的连贯性和语义完整性。此外，如何在去除无效信息的同时保留对话的多样性和丰富性，也是该数据集构建过程中需要解决的关键问题。

常用场景

经典使用场景

ultra-chat_clean数据集在多轮对话系统的开发与优化中扮演着关键角色。通过提供经过严格清洗的对话数据，该数据集为研究人员和开发者提供了一个高质量的基准，用于训练和评估对话模型。特别是在自然语言处理领域，它支持了从简单的问答系统到复杂的对话管理系统的广泛研究。

解决学术问题

该数据集解决了对话系统中常见的几个学术问题，如对话连贯性、上下文理解和多轮对话管理。通过去除不相关的信息和噪声，ultra-chat_clean使得研究者能够更专注于对话逻辑和语义的深度分析，从而推动了对话系统技术的进步。

衍生相关工作

基于ultra-chat_clean数据集，已经衍生出多项经典工作，包括改进的对话模型、更高效的训练算法和更精确的评估方法。这些工作不仅推动了对话系统技术的发展，也为相关领域的研究提供了新的视角和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集