shareAI/ShareGPT-Chinese-English-90k
收藏Hugging Face2025-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shareAI/ShareGPT-Chinese-English-90k
下载链接
链接失效反馈资源简介:
ShareGPT-Chinese-English-90k是一个中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。该数据集用于训练高质量的对话模型,具有以下特点:1. 提供完全语义等价的中英文平行语料,便于双语对话模型训练;2. 所有问题均为真实用户提问,非人为臆想或API轮询拟造的假数据,更符合真实用户场景的指令分布和提问表达;3. 数据集通过网友自发分享收集,经过人类感知的自然过滤,筛除了大部分体验不好的对话。数据集收集于ChatGPT未表现出明显智力退化的时间点,适用于高质量的多轮对话模型训练。
ShareGPT-Chinese-English-90k is a high-quality Chinese-English parallel bilingual human-machine QA dataset, covering user questions in real and complex scenarios. It is used for training high-quality dialogue models with the following features: 1. Provides fully semantically equivalent Chinese-English parallel corpus, facilitating bilingual dialogue model training; 2. All questions are genuine inquiries from users, not fabricated by artificial imagination or API polling, aligning more closely with the real distribution of user scenarios and their expressions of questions; 3. The dataset is collected through voluntary sharing by netizens, acting as a natural filter that screens out most dialogues with poor experience. The dataset was collected at a time before ChatGPT showed signs of significant cognitive decline, making it suitable for training high-quality multi-turn dialogue models.
提供机构:
shareAI
原始信息汇总
ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset 概述
数据集基本信息
- 许可证: Apache-2.0
- 配置文件: 默认配置,数据文件位于
sharegpt_jsonl/*.jsonl - 任务类别: 问答、文本生成
- 语言: 英语、中文
- 标签: 代码
- 数据集大小: 10K<n<100K
数据集特点
- 双语平行语料: 提供完全语义等价的中英文平行语料,支持双语对话模型训练。
- 真实用户问题: 所有问题均为真实用户提问,非人工臆想或API轮询生成,更符合真实用户场景。
- 自然过滤: 数据集通过网友自发分享收集,自然过滤了体验不佳的对话。
使用建议
推荐使用Firefly框架快速加载数据集。
搜集汇总
数据集介绍

构建方式
ShareGPT-Chinese-English-90k数据集通过网友自发分享的方式构建,涵盖了真实复杂场景下的用户提问。该数据集不仅提供了中英文平行对照的语料,还通过自然过滤机制筛选出体验良好的对话,确保了数据的高质量。此外,数据集的收集时间点在ChatGPT表现出明显智力退化之前,进一步保证了数据的时效性和可靠性。
使用方法
使用ShareGPT-Chinese-English-90k数据集时,推荐采用Firefly框架进行快速加载和处理。用户可以通过提供的脚本将数据集转换为更广泛使用的ShareGPT格式,以便进行多轮对话模型的训练。此外,数据集的引用信息应按照提供的格式进行,以确保学术和实践中的规范性。
背景与挑战
背景概述
ShareGPT-Chinese-English-90k数据集是由shareAI团队于2023年创建的高质量中英文双语人机问答数据集,旨在为训练高质量的对话模型提供丰富的语料资源。该数据集的核心研究问题在于如何通过真实用户提问的收集与整理,构建一个能够反映真实场景指令分布的双语对话数据集,从而提升对话模型的鲁棒性和实用性。主要研究人员和机构包括shareAI团队及其合作者,他们通过网友自发分享的方式收集数据,确保了数据的真实性和多样性。这一数据集的推出,对中英文双语对话模型的训练和优化具有重要影响,为相关领域的研究提供了宝贵的资源。
当前挑战
ShareGPT-Chinese-English-90k数据集在构建过程中面临多项挑战。首先,如何确保收集到的用户提问具有高度的真实性和代表性,而非通过API轮询生成的模拟数据,是一个关键问题。其次,数据集需要提供意义完全相同的中英文平行语料,这对翻译质量和语义对齐提出了高要求。此外,数据集的收集和整理过程中,如何有效过滤体验不佳的对话,确保数据质量,也是一个不容忽视的挑战。最后,数据集的构建需考虑如何适应不同对话模型的训练需求,确保其在实际应用中的广泛适用性。
常用场景
经典使用场景
ShareGPT-Chinese-English-90k数据集的经典使用场景在于训练高质量的双语对话模型。该数据集提供了大量真实用户在复杂场景下的中英文问答对,这些问答对不仅语义等价,而且来源于真实用户的自然提问,而非通过API模拟生成。这种真实性和多样性使得该数据集在训练对话系统时能够显著提升模型的鲁棒性和适应性,特别是在处理多轮对话和复杂指令时表现尤为突出。
解决学术问题
ShareGPT-Chinese-English-90k数据集解决了当前对话系统研究中的一个关键问题,即如何获取高质量、真实且多样化的对话数据。传统的对话数据集往往依赖于API模拟生成,这些数据虽然在数量上占优,但在质量和真实性上存在局限。该数据集通过收集真实用户的问答对,不仅提供了丰富的语料资源,还确保了数据的真实性和多样性,这对于提升对话模型的性能和泛化能力具有重要意义。
实际应用
在实际应用中,ShareGPT-Chinese-English-90k数据集被广泛用于开发和优化双语对话系统,特别是在需要处理复杂用户指令和多轮对话的场景中。例如,在智能客服、虚拟助手和在线教育等领域,该数据集能够帮助模型更好地理解和响应用户的需求,提升用户体验。此外,该数据集的中英文平行语料特性,也使其在跨语言对话系统的开发中具有独特的优势。
数据集最近研究
最新研究方向
在自然语言处理领域,ShareGPT-Chinese-English-90k数据集因其高质量的中英文双语问答数据而备受关注。该数据集不仅提供了语义对等的平行语料,还通过真实用户提问确保了数据的实用性和多样性。近期研究主要集中在利用该数据集训练更为鲁棒和智能的对话模型,特别是在多轮对话和跨语言理解方面。此外,随着ChatGPT等大型语言模型的不断发展,如何利用高质量数据集提升模型在复杂场景下的表现成为研究热点。ShareGPT-Chinese-English-90k的独特性在于其自然过滤机制,这为研究者提供了更为纯净和贴近实际应用的数据源,推动了对话系统在真实世界中的应用和优化。
以上内容由遇见数据集搜集并总结生成



