sharegpt_v3_uncensored_cleaned

Hugging Face2024-11-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Locutusque/sharegpt_v3_uncensored_cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'cleaned'，包含一个名为'conversations'的特征列表，其中包含'from'和'value'两个字段，数据类型均为字符串。数据集分为一个训练集，包含35240个样本，总大小为178966046字节。数据集的下载大小为79930023字节。数据集经过了清洗，去除了不完整的指令、包含'slop'的指令，并使用精确匹配和MinHashLSH进行了去重。原始数据集来自https://huggingface.co/datasets/shibing624/sharegpt_gpt4，使用了sharegpt_V3_format.jsonl文件。

创建时间：

2024-11-08

原始信息汇总

数据集概述

数据集信息

配置名称: cleaned
特征:
- 名称: conversations
  - 列表:
    - 名称: from
      - 数据类型: string
    - 名称: value
      - 数据类型: string
分割:
- 名称: train
  - 字节数: 178966046
  - 样本数: 35240
下载大小: 79930023
数据集大小: 178966046

配置

配置名称: cleaned
- 数据文件:
  - 分割: train
    - 路径: cleaned/train-*

数据处理

清理了不完整的指令、包含“slop”的指令，并使用精确匹配和MinHashLSH进行去重。

原始数据集

来源: https://huggingface.co/datasets/shibing624/sharegpt_gpt4
使用文件: sharegpt_V3_format.jsonl

搜集汇总

数据集介绍

构建方式

sharegpt_v3_uncensored_cleaned数据集的构建基于原始数据集sharegpt_gpt4，采用了严格的清洗和去重流程。首先，移除了所有不完整的指令以及包含“slop”的指令，确保数据的完整性和质量。随后，通过精确匹配和MinHashLSH算法进行去重，进一步提升了数据集的纯净度。这一过程不仅优化了数据的结构，还增强了其在自然语言处理任务中的适用性。

特点

该数据集的特点在于其高度清洗和去重后的对话数据，涵盖了35240个示例，总数据量达到178966046字节。每个对话均包含明确的角色和内容，结构清晰，便于模型理解和学习。此外，数据集的配置文件和分割信息详细，便于用户快速定位和使用所需数据。这些特点使得该数据集在对话生成和语言模型训练中具有较高的实用价值。

使用方法

使用sharegpt_v3_uncensored_cleaned数据集时，用户可通过HuggingFace平台直接下载清洗后的数据文件。数据集已按训练集进行分割，路径清晰，便于加载和处理。用户可以根据需要，利用这些对话数据进行模型训练、评估或生成任务。建议在加载数据时，结合具体任务需求进行进一步的处理和优化，以充分发挥数据集的潜力。

背景与挑战

背景概述

sharegpt_v3_uncensored_cleaned数据集是基于ShareGPT项目的一个子集，旨在提供高质量、无重复的对话数据。该数据集由shibing624团队于2023年发布，主要来源于ShareGPT_V3_format.jsonl文件。其核心研究问题在于如何通过清理和去重技术，提升对话数据的质量，以支持更高效的模型训练。该数据集在自然语言处理领域，特别是对话生成和指令理解任务中，具有重要的应用价值，为研究人员提供了更为纯净的数据资源。

当前挑战

在构建sharegpt_v3_uncensored_cleaned数据集的过程中，主要挑战包括如何有效识别并清理不完整的指令以及包含低质量内容（如“slop”）的对话。此外，去重技术的应用也面临挑战，特别是如何在保留语义多样性的同时，精确去除重复数据。这些技术难题直接影响了数据集的最终质量，进而对依赖该数据集进行训练的模型性能产生深远影响。

常用场景

经典使用场景

在自然语言处理领域，sharegpt_v3_uncensored_cleaned数据集广泛应用于对话系统的训练与评估。该数据集通过清理不完整指令和去重处理，为研究者提供了一个高质量、多样化的对话样本库，特别适用于生成式对话模型的训练。

实际应用

在实际应用中，sharegpt_v3_uncensored_cleaned数据集被广泛应用于智能客服、虚拟助手等对话系统的开发。其高质量的对话数据能够显著提升系统的响应准确性和用户体验，为商业应用中的对话交互提供了可靠的技术支持。

衍生相关工作

基于sharegpt_v3_uncensored_cleaned数据集，研究者们开发了多种先进的对话生成模型。这些模型在公开评测中表现出色，推动了对话生成技术的发展。同时，该数据集也激发了更多关于对话数据清洗和优化的研究，为相关领域的学术探索提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集