philschmid/sharegpt-raw

Name: philschmid/sharegpt-raw
Creator: philschmid
Published: 2023-04-04 08:52:59
License: 暂无描述

Hugging Face2023-04-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/philschmid/sharegpt-raw

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过合并和清理两个原始JSON文件生成，经过HTML标签去除和语言过滤等步骤，最终生成了用于微调的清理后的数据集。数据集包含中文和英文两种语言，分别有6240条和55413条数据。

提供机构：

philschmid

原始信息汇总

数据集概述

数据集准备

安装依赖：通过命令 pip3 install -r requirements.txt 安装所需依赖。

数据清洗步骤

合并与美化JSON文件
- 使用 merge.py 合并两个原始JSON文件，并通过 pretty_json.py 美化合并后的文件。
- 输入文件：sharegpt_90k_raw_dataset/sg_90k_part1.json 和 sharegpt_90k_raw_dataset/sg_90k_part2.json。
- 输出文件：sharegpt_20230401_html.json。
验证JSON文件
- 使用 jq 工具验证JSON文件的有效性。
清理数据
- 使用 clean_sharegpt.py 清理HTML标签等，生成 sharegpt_20230401_clean.json。
按语言过滤数据集
- 使用 optional_clean.py 按语言过滤数据，支持中文和英文。
- 输出文件：sharegpt_20230401_clean_lang_zh.json 和 sharegpt_20230401_clean_lang_en.json。
分割长对话
- 使用 split_long_conversation.py 分割长对话，生成 sharegpt_20230401_clean_lang_split.json。

最终数据集

最终清洗后的数据集为 sharegpt_20230401_clean_lang_split.json，适用于微调。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模对话数据集的构建是推动模型性能提升的关键环节。ShareGPT-Raw数据集的构建过程体现了系统化的数据处理流程，其原始数据来源于两个JSON文件，通过合并与格式化操作形成统一结构。随后，采用自动化脚本去除HTML标签等冗余信息，确保文本纯净度。进一步通过语言过滤机制，筛选出中文与英文对话内容，并依据模型输入长度限制对长对话进行智能分割，最终生成适用于微调任务的结构化数据集。

特点

该数据集在对话生成研究领域展现出显著特色，其核心在于覆盖多轮真实用户与AI助手的交互记录，内容涵盖广泛主题，反映了实际应用场景的多样性。数据经过严格清洗，去除了非文本元素与低质量条目，保证了语言表达的规范性与一致性。同时，数据集支持双语处理，为跨语言模型训练提供了便利，且通过对话分割技术优化了长序列数据的可用性，增强了其在训练过程中的适配性。

使用方法

对于研究人员而言，该数据集的使用需遵循明确的预处理步骤。用户需安装指定依赖库，并依次执行数据合并、清洗与语言过滤操作，以获取纯净的对话文本。在模型训练阶段，数据集可直接加载为JSON格式，每条记录包含完整的对话轮次，便于输入到生成式模型中进行微调。此外，通过调整语言筛选参数，可灵活提取特定语种数据，支持定制化研究需求，为对话系统的开发与评估提供坚实基础。

背景与挑战

背景概述

随着大型语言模型在对话生成领域的快速发展，高质量、多样化的对话数据成为模型训练与评估的关键资源。ShareGPT数据集由社区研究人员于2023年构建，其核心目标在于收集真实用户与AI助手之间的多轮对话记录，旨在解决开放域对话系统中数据稀缺与真实性不足的难题。该数据集通过整合大量用户分享的交互内容，为对话模型的指令微调与对齐研究提供了丰富的语料支持，显著推动了对话生成技术向更自然、更人性化的方向发展。

当前挑战

ShareGPT数据集所针对的开放域对话生成任务，本身面临对话连贯性、主题一致性与安全性等多重挑战。在构建过程中，原始数据包含大量HTML标签及非结构化内容，需经过复杂的清洗与格式化处理；同时，数据涵盖多种语言，需进行有效的语言识别与过滤以保障语料质量。此外，长对话的合理切分与模型输入长度的适配，亦是数据预处理中的技术难点，这些步骤共同确保了数据集的可用性与模型训练的稳定性。

常用场景

经典使用场景

在自然语言处理领域，对话生成模型的训练需要高质量、多样化的对话数据作为支撑。ShareGPT数据集通过整合用户与大型语言模型之间的真实交互记录，为研究者提供了丰富的多轮对话语料。该数据集最经典的使用场景在于微调开源对话模型，例如基于LLaMA架构的模型，通过指令遵循和上下文理解任务，显著提升模型在开放域对话中的流畅性与连贯性。其多语言特性进一步支持跨语言对话系统的开发，成为对话人工智能研究的重要基石。

衍生相关工作

围绕ShareGPT数据集，学术界衍生了一系列经典研究工作。例如，Vicuna模型利用该数据集的精炼版本进行微调，在对话质量评估中取得了突破性表现；后续研究进一步探索了数据清洗策略对模型性能的影响，提出了基于语言过滤和长对话分割的优化方法。这些工作不仅验证了数据质量对模型泛化能力的关键作用，也催生了更多针对多语言、多领域对话数据集的构建与评估框架，持续推动着对话生成技术的创新浪潮。

数据集最近研究