philschmid/sharegpt-raw
收藏Hugging Face2023-04-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/philschmid/sharegpt-raw
下载链接
链接失效反馈官方服务:
资源简介:
该数据集通过合并和清理两个原始JSON文件生成,经过HTML标签去除和语言过滤等步骤,最终生成了用于微调的清理后的数据集。数据集包含中文和英文两种语言,分别有6240条和55413条数据。
该数据集通过合并和清理两个原始JSON文件生成,经过HTML标签去除和语言过滤等步骤,最终生成了用于微调的清理后的数据集。数据集包含中文和英文两种语言,分别有6240条和55413条数据。
提供机构:
philschmid
原始信息汇总
数据集概述
数据集准备
- 安装依赖:通过命令
pip3 install -r requirements.txt安装所需依赖。
数据清洗步骤
-
合并与美化JSON文件
- 使用
merge.py合并两个原始JSON文件,并通过pretty_json.py美化合并后的文件。 - 输入文件:
sharegpt_90k_raw_dataset/sg_90k_part1.json和sharegpt_90k_raw_dataset/sg_90k_part2.json。 - 输出文件:
sharegpt_20230401_html.json。
- 使用
-
验证JSON文件
- 使用
jq工具验证JSON文件的有效性。
- 使用
-
清理数据
- 使用
clean_sharegpt.py清理HTML标签等,生成sharegpt_20230401_clean.json。
- 使用
-
按语言过滤数据集
- 使用
optional_clean.py按语言过滤数据,支持中文和英文。 - 输出文件:
sharegpt_20230401_clean_lang_zh.json和sharegpt_20230401_clean_lang_en.json。
- 使用
-
分割长对话
- 使用
split_long_conversation.py分割长对话,生成sharegpt_20230401_clean_lang_split.json。
- 使用
最终数据集
- 最终清洗后的数据集为
sharegpt_20230401_clean_lang_split.json,适用于微调。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,大规模对话数据集的构建是推动模型性能提升的关键环节。ShareGPT-Raw数据集的构建过程体现了系统化的数据处理流程,其原始数据来源于两个JSON文件,通过合并与格式化操作形成统一结构。随后,采用自动化脚本去除HTML标签等冗余信息,确保文本纯净度。进一步通过语言过滤机制,筛选出中文与英文对话内容,并依据模型输入长度限制对长对话进行智能分割,最终生成适用于微调任务的结构化数据集。
特点
该数据集在对话生成研究领域展现出显著特色,其核心在于覆盖多轮真实用户与AI助手的交互记录,内容涵盖广泛主题,反映了实际应用场景的多样性。数据经过严格清洗,去除了非文本元素与低质量条目,保证了语言表达的规范性与一致性。同时,数据集支持双语处理,为跨语言模型训练提供了便利,且通过对话分割技术优化了长序列数据的可用性,增强了其在训练过程中的适配性。
使用方法
对于研究人员而言,该数据集的使用需遵循明确的预处理步骤。用户需安装指定依赖库,并依次执行数据合并、清洗与语言过滤操作,以获取纯净的对话文本。在模型训练阶段,数据集可直接加载为JSON格式,每条记录包含完整的对话轮次,便于输入到生成式模型中进行微调。此外,通过调整语言筛选参数,可灵活提取特定语种数据,支持定制化研究需求,为对话系统的开发与评估提供坚实基础。
背景与挑战
背景概述
随着大型语言模型在对话生成领域的快速发展,高质量、多样化的对话数据成为模型训练与评估的关键资源。ShareGPT数据集由社区研究人员于2023年构建,其核心目标在于收集真实用户与AI助手之间的多轮对话记录,旨在解决开放域对话系统中数据稀缺与真实性不足的难题。该数据集通过整合大量用户分享的交互内容,为对话模型的指令微调与对齐研究提供了丰富的语料支持,显著推动了对话生成技术向更自然、更人性化的方向发展。
当前挑战
ShareGPT数据集所针对的开放域对话生成任务,本身面临对话连贯性、主题一致性与安全性等多重挑战。在构建过程中,原始数据包含大量HTML标签及非结构化内容,需经过复杂的清洗与格式化处理;同时,数据涵盖多种语言,需进行有效的语言识别与过滤以保障语料质量。此外,长对话的合理切分与模型输入长度的适配,亦是数据预处理中的技术难点,这些步骤共同确保了数据集的可用性与模型训练的稳定性。
常用场景
经典使用场景
在自然语言处理领域,对话生成模型的训练需要高质量、多样化的对话数据作为支撑。ShareGPT数据集通过整合用户与大型语言模型之间的真实交互记录,为研究者提供了丰富的多轮对话语料。该数据集最经典的使用场景在于微调开源对话模型,例如基于LLaMA架构的模型,通过指令遵循和上下文理解任务,显著提升模型在开放域对话中的流畅性与连贯性。其多语言特性进一步支持跨语言对话系统的开发,成为对话人工智能研究的重要基石。
衍生相关工作
围绕ShareGPT数据集,学术界衍生了一系列经典研究工作。例如,Vicuna模型利用该数据集的精炼版本进行微调,在对话质量评估中取得了突破性表现;后续研究进一步探索了数据清洗策略对模型性能的影响,提出了基于语言过滤和长对话分割的优化方法。这些工作不仅验证了数据质量对模型泛化能力的关键作用,也催生了更多针对多语言、多领域对话数据集的构建与评估框架,持续推动着对话生成技术的创新浪潮。
数据集最近研究
最新研究方向
在自然语言处理领域,对话生成模型的训练数据质量直接影响其性能与泛化能力。ShareGPT数据集作为从实际用户对话中收集的语料,为研究社区提供了丰富的多轮对话实例。当前,基于该数据集的前沿研究聚焦于多语言对话模型的微调与优化,特别是在中英文混合语境下的模型适应性探索。研究者们利用数据清洗与分割技术,致力于提升长对话序列的处理效率,以应对生成式人工智能在开放域对话中的连贯性与上下文保持挑战。这一方向不仅推动了对话系统向更自然、更人性化的交互演进,也为跨语言人工智能应用奠定了数据基础,具有重要的学术与实践意义。
以上内容由遇见数据集搜集并总结生成



