five

shareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集

收藏
hugging_face2024-08-16 更新2024-03-04 收录
自然语言处理
指令微调
下载链接:
https://hf-mirror.com/datasets/shareAI/ShareGPT-Chinese-English-90k
下载链接
链接失效反馈
资源简介:
--- license: apache-2.0 configs: - config_name: default data_files: sharegpt_jsonl/*.jsonl task_categories: - question-answering - text-generation language: - en - zh tags: - code size_categories: - 10K<n<100K --- # ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset A high-quality Chinese-English parallel bilingual human-machine QA dataset, covering user questions in real and complex scenarios. It is used for training high-quality dialogue models (more robust in instruction distribution than those datasets generated by repeatedly calling API interfaces to simulate machine-generated Q&A, like Moss) Features: - 1. Provides fully semantically equivalent Chinese-English parallel corpus, facilitating bilingual dialogue model training. - 2. All questions are genuine inquiries from users, not fabricated by artificial imagination or API polling (like Moss), aligning more closely with the real distribution of user scenarios and their expressions of questions. - 3. The ShareGPT dataset is collected through voluntary sharing by netizens, acting as a natural filter (via human perception) that screens out most dialogues with poor experience. It is recommended to use the Firefly framework for quick and easy out-of-the-box loading of this data format: https://github.com/yangjianxin1/Firefly Note: This dataset was collected at a time before ChatGPT showed signs of significant cognitive decline. (It is speculated that this may be partly because the official replaced the 150B gpt3.5 with a distilled version of about 10B to reduce expenses, and partly because the introduction of more refusal responses led to a degradation in the model's ability to connect knowledge and logic.) The training of an excellent dialogue LLM cannot do without a high-quality multi-turn dialogue dataset. If you also wish to become a volunteer, you are welcome to join the dataset QQ group: 130920969, to exchange, collect, and contribute to the construction of high-quality datasets. # ShareGPT-Chinese-English-90k 中英文双语人机问答数据集 中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。用于训练高质量的对话模型 (比那些通过反复调用api接口生成机器模拟问答的数据在指令分布上更鲁棒) 特点: - 1.同时提供意义表达完全相同的中英文平行对照语料,可进行双语对话模型训练。 - 2.所有问题均非人为臆想加上api轮询拟造的假数据(如Moss),更加符合真实用户场景的指令分布和提问表达。 - 3.sharegpt数据集是由网友自发分享而收集到的,相当于有一层非常天然的过滤(通过人类感觉),筛除了大部分体验不好的对话。 推荐使用firefly框架,可以快速开箱即用使用该数据格式的加载: https://github.com/yangjianxin1/Firefly PS:当前数据集为firefly格式,可以自行使用仓库内提供的脚本转换为更广为使用的sharegpt格式的多轮对话数据集. ```python import json def convert_jsonl(input_file, output_file): with open(input_file, 'r', encoding='utf-8') as f: with open(output_file, 'w', encoding='utf-8') as fout: for line in f: data = json.loads(line.strip()) conversations = data['conversation'] new_conversations = [] for conv in conversations: for key, value in conv.items(): if key == 'assistant': key = 'gpt' else: key = 'human' new_conversations.append({'from': key, 'value': value}) new_data = {'conversations': new_conversations} fout.write(json.dumps(new_data, ensure_ascii=False) + '\n') # 替换输入文件路径和输出文件路径 input_file = 'input_firefly.jsonl' output_file = 'output_sharegpt.jsonl' convert_jsonl(input_file, output_file) ``` 补充:该数据收集于chatGPT还未表现出明显智力退化的时间点。(猜测一方面可能是官方为了减小开支把150B的gpt3.5替换成10b左右的蒸馏版本了,另一方面可能是由于引入了更多的拒绝答复导致模型连接知识逻辑的程度退化) 优秀对话llm的训练离不开高质量的多轮对话数据集,如果你也想成为志愿者 欢迎加入shareAI QQ群:130920969,共同进行优质数据集的交流、收集和建设工作 特别感谢:“淮北艾阿网络科技有限公司”对翻译工作费用的赞助支持! <img width="360" src="https://cdn-uploads.huggingface.co/production/uploads/631f5b422225f12fc0f2c838/rnAz74Adg-m8QbRraXhqU.jpeg"> 如果您的工作成果使用到了该项目,请按如下方式进行引用: If your work results use this project, please cite it as follows: ``` @misc{ShareGPT-Chinese-English-90k, author = {shareAI}, title = {ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset}, year = {2023}, publisher = {huggingface}, journal = {huggingface repository}, howpublished = {\url{https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k}} } ```
提供机构:
shareAI
原始信息汇总

ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset 概述

数据集基本信息

  • 许可证: Apache-2.0
  • 配置文件: 默认配置,数据文件位于 sharegpt_jsonl/*.jsonl
  • 任务类别: 问答、文本生成
  • 语言: 英语、中文
  • 标签: 代码
  • 数据集大小: 10K<n<100K

数据集特点

  1. 双语平行语料: 提供完全语义等价的中英文平行语料,支持双语对话模型训练。
  2. 真实用户问题: 所有问题均为真实用户提问,非人工臆想或API轮询生成,更符合真实用户场景。
  3. 自然过滤: 数据集通过网友自发分享收集,自然过滤了体验不佳的对话。

使用建议

推荐使用Firefly框架快速加载数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ShareGPT-Chinese-English-90k数据集通过网友自发分享的方式构建,涵盖了真实复杂场景下的用户提问。该数据集不仅提供了中英文平行对照的语料,还通过自然过滤机制筛选出体验良好的对话,确保了数据的高质量。此外,数据集的收集时间点在ChatGPT表现出明显智力退化之前,进一步保证了数据的时效性和可靠性。
使用方法
使用ShareGPT-Chinese-English-90k数据集时,推荐采用Firefly框架进行快速加载和处理。用户可以通过提供的脚本将数据集转换为更广泛使用的ShareGPT格式,以便进行多轮对话模型的训练。此外,数据集的引用信息应按照提供的格式进行,以确保学术和实践中的规范性。
背景与挑战
背景概述
ShareGPT-Chinese-English-90k数据集是由shareAI团队于2023年创建的高质量中英文双语人机问答数据集,旨在为训练高质量的对话模型提供丰富的语料资源。该数据集的核心研究问题在于如何通过真实用户提问的收集与整理,构建一个能够反映真实场景指令分布的双语对话数据集,从而提升对话模型的鲁棒性和实用性。主要研究人员和机构包括shareAI团队及其合作者,他们通过网友自发分享的方式收集数据,确保了数据的真实性和多样性。这一数据集的推出,对中英文双语对话模型的训练和优化具有重要影响,为相关领域的研究提供了宝贵的资源。
当前挑战
ShareGPT-Chinese-English-90k数据集在构建过程中面临多项挑战。首先,如何确保收集到的用户提问具有高度的真实性和代表性,而非通过API轮询生成的模拟数据,是一个关键问题。其次,数据集需要提供意义完全相同的中英文平行语料,这对翻译质量和语义对齐提出了高要求。此外,数据集的收集和整理过程中,如何有效过滤体验不佳的对话,确保数据质量,也是一个不容忽视的挑战。最后,数据集的构建需考虑如何适应不同对话模型的训练需求,确保其在实际应用中的广泛适用性。
常用场景
经典使用场景
ShareGPT-Chinese-English-90k数据集的经典使用场景在于训练高质量的双语对话模型。该数据集提供了大量真实用户在复杂场景下的中英文问答对,这些问答对不仅语义等价,而且来源于真实用户的自然提问,而非通过API模拟生成。这种真实性和多样性使得该数据集在训练对话系统时能够显著提升模型的鲁棒性和适应性,特别是在处理多轮对话和复杂指令时表现尤为突出。
解决学术问题
ShareGPT-Chinese-English-90k数据集解决了当前对话系统研究中的一个关键问题,即如何获取高质量、真实且多样化的对话数据。传统的对话数据集往往依赖于API模拟生成,这些数据虽然在数量上占优,但在质量和真实性上存在局限。该数据集通过收集真实用户的问答对,不仅提供了丰富的语料资源,还确保了数据的真实性和多样性,这对于提升对话模型的性能和泛化能力具有重要意义。
实际应用
在实际应用中,ShareGPT-Chinese-English-90k数据集被广泛用于开发和优化双语对话系统,特别是在需要处理复杂用户指令和多轮对话的场景中。例如,在智能客服、虚拟助手和在线教育等领域,该数据集能够帮助模型更好地理解和响应用户的需求,提升用户体验。此外,该数据集的中英文平行语料特性,也使其在跨语言对话系统的开发中具有独特的优势。
数据集最近研究
最新研究方向
在自然语言处理领域,ShareGPT-Chinese-English-90k数据集因其高质量的中英文双语问答数据而备受关注。该数据集不仅提供了语义对等的平行语料,还通过真实用户提问确保了数据的实用性和多样性。近期研究主要集中在利用该数据集训练更为鲁棒和智能的对话模型,特别是在多轮对话和跨语言理解方面。此外,随着ChatGPT等大型语言模型的不断发展,如何利用高质量数据集提升模型在复杂场景下的表现成为研究热点。ShareGPT-Chinese-English-90k的独特性在于其自然过滤机制,这为研究者提供了更为纯净和贴近实际应用的数据源,推动了对话系统在真实世界中的应用和优化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Literature Database, XML, NBVC, Oct 2017

Literature Database, XML format, the Natural Resources of Naval Base Ventura County

Mendeley Data 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

AMASS_Retargeted_for_G1

这是一个针对G1人形机器人的AMASS数据集重定向版本,已经格式化为IsaacLab的AMP运动加载器使用,且与ProtoMotions兼容。

huggingface 收录