five

shareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集

收藏
hugging_face2024-08-16 更新2024-03-04 收录
自然语言处理
指令微调
下载链接:
https://hf-mirror.com/datasets/shareAI/ShareGPT-Chinese-English-90k
下载链接
链接失效反馈
资源简介:
--- license: apache-2.0 configs: - config_name: default data_files: sharegpt_jsonl/*.jsonl task_categories: - question-answering - text-generation language: - en - zh tags: - code size_categories: - 10K<n<100K --- # ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset A high-quality Chinese-English parallel bilingual human-machine QA dataset, covering user questions in real and complex scenarios. It is used for training high-quality dialogue models (more robust in instruction distribution than those datasets generated by repeatedly calling API interfaces to simulate machine-generated Q&A, like Moss) Features: - 1. Provides fully semantically equivalent Chinese-English parallel corpus, facilitating bilingual dialogue model training. - 2. All questions are genuine inquiries from users, not fabricated by artificial imagination or API polling (like Moss), aligning more closely with the real distribution of user scenarios and their expressions of questions. - 3. The ShareGPT dataset is collected through voluntary sharing by netizens, acting as a natural filter (via human perception) that screens out most dialogues with poor experience. It is recommended to use the Firefly framework for quick and easy out-of-the-box loading of this data format: https://github.com/yangjianxin1/Firefly Note: This dataset was collected at a time before ChatGPT showed signs of significant cognitive decline. (It is speculated that this may be partly because the official replaced the 150B gpt3.5 with a distilled version of about 10B to reduce expenses, and partly because the introduction of more refusal responses led to a degradation in the model's ability to connect knowledge and logic.) The training of an excellent dialogue LLM cannot do without a high-quality multi-turn dialogue dataset. If you also wish to become a volunteer, you are welcome to join the dataset QQ group: 130920969, to exchange, collect, and contribute to the construction of high-quality datasets. # ShareGPT-Chinese-English-90k 中英文双语人机问答数据集 中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。用于训练高质量的对话模型 (比那些通过反复调用api接口生成机器模拟问答的数据在指令分布上更鲁棒) 特点: - 1.同时提供意义表达完全相同的中英文平行对照语料,可进行双语对话模型训练。 - 2.所有问题均非人为臆想加上api轮询拟造的假数据(如Moss),更加符合真实用户场景的指令分布和提问表达。 - 3.sharegpt数据集是由网友自发分享而收集到的,相当于有一层非常天然的过滤(通过人类感觉),筛除了大部分体验不好的对话。 推荐使用firefly框架,可以快速开箱即用使用该数据格式的加载: https://github.com/yangjianxin1/Firefly PS:当前数据集为firefly格式,可以自行使用仓库内提供的脚本转换为更广为使用的sharegpt格式的多轮对话数据集. ```python import json def convert_jsonl(input_file, output_file): with open(input_file, 'r', encoding='utf-8') as f: with open(output_file, 'w', encoding='utf-8') as fout: for line in f: data = json.loads(line.strip()) conversations = data['conversation'] new_conversations = [] for conv in conversations: for key, value in conv.items(): if key == 'assistant': key = 'gpt' else: key = 'human' new_conversations.append({'from': key, 'value': value}) new_data = {'conversations': new_conversations} fout.write(json.dumps(new_data, ensure_ascii=False) + '\n') # 替换输入文件路径和输出文件路径 input_file = 'input_firefly.jsonl' output_file = 'output_sharegpt.jsonl' convert_jsonl(input_file, output_file) ``` 补充:该数据收集于chatGPT还未表现出明显智力退化的时间点。(猜测一方面可能是官方为了减小开支把150B的gpt3.5替换成10b左右的蒸馏版本了,另一方面可能是由于引入了更多的拒绝答复导致模型连接知识逻辑的程度退化) 优秀对话llm的训练离不开高质量的多轮对话数据集,如果你也想成为志愿者 欢迎加入shareAI QQ群:130920969,共同进行优质数据集的交流、收集和建设工作 特别感谢:“淮北艾阿网络科技有限公司”对翻译工作费用的赞助支持! <img width="360" src="https://cdn-uploads.huggingface.co/production/uploads/631f5b422225f12fc0f2c838/rnAz74Adg-m8QbRraXhqU.jpeg"> 如果您的工作成果使用到了该项目,请按如下方式进行引用: If your work results use this project, please cite it as follows: ``` @misc{ShareGPT-Chinese-English-90k, author = {shareAI}, title = {ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset}, year = {2023}, publisher = {huggingface}, journal = {huggingface repository}, howpublished = {\url{https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k}} } ```
提供机构:
shareAI
原始信息汇总

ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset 概述

数据集基本信息

  • 许可证: Apache-2.0
  • 配置文件: 默认配置,数据文件位于 sharegpt_jsonl/*.jsonl
  • 任务类别: 问答、文本生成
  • 语言: 英语、中文
  • 标签: 代码
  • 数据集大小: 10K<n<100K

数据集特点

  1. 双语平行语料: 提供完全语义等价的中英文平行语料,支持双语对话模型训练。
  2. 真实用户问题: 所有问题均为真实用户提问,非人工臆想或API轮询生成,更符合真实用户场景。
  3. 自然过滤: 数据集通过网友自发分享收集,自然过滤了体验不佳的对话。

使用建议

推荐使用Firefly框架快速加载数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ShareGPT-Chinese-English-90k数据集通过网友自发分享的方式构建,涵盖了真实复杂场景下的用户提问。该数据集不仅提供了中英文平行对照的语料,还通过自然过滤机制筛选出体验良好的对话,确保了数据的高质量。此外,数据集的收集时间点在ChatGPT表现出明显智力退化之前,进一步保证了数据的时效性和可靠性。
使用方法
使用ShareGPT-Chinese-English-90k数据集时,推荐采用Firefly框架进行快速加载和处理。用户可以通过提供的脚本将数据集转换为更广泛使用的ShareGPT格式,以便进行多轮对话模型的训练。此外,数据集的引用信息应按照提供的格式进行,以确保学术和实践中的规范性。
背景与挑战
背景概述
ShareGPT-Chinese-English-90k数据集是由shareAI团队于2023年创建的高质量中英文双语人机问答数据集,旨在为训练高质量的对话模型提供丰富的语料资源。该数据集的核心研究问题在于如何通过真实用户提问的收集与整理,构建一个能够反映真实场景指令分布的双语对话数据集,从而提升对话模型的鲁棒性和实用性。主要研究人员和机构包括shareAI团队及其合作者,他们通过网友自发分享的方式收集数据,确保了数据的真实性和多样性。这一数据集的推出,对中英文双语对话模型的训练和优化具有重要影响,为相关领域的研究提供了宝贵的资源。
当前挑战
ShareGPT-Chinese-English-90k数据集在构建过程中面临多项挑战。首先,如何确保收集到的用户提问具有高度的真实性和代表性,而非通过API轮询生成的模拟数据,是一个关键问题。其次,数据集需要提供意义完全相同的中英文平行语料,这对翻译质量和语义对齐提出了高要求。此外,数据集的收集和整理过程中,如何有效过滤体验不佳的对话,确保数据质量,也是一个不容忽视的挑战。最后,数据集的构建需考虑如何适应不同对话模型的训练需求,确保其在实际应用中的广泛适用性。
常用场景
经典使用场景
ShareGPT-Chinese-English-90k数据集的经典使用场景在于训练高质量的双语对话模型。该数据集提供了大量真实用户在复杂场景下的中英文问答对,这些问答对不仅语义等价,而且来源于真实用户的自然提问,而非通过API模拟生成。这种真实性和多样性使得该数据集在训练对话系统时能够显著提升模型的鲁棒性和适应性,特别是在处理多轮对话和复杂指令时表现尤为突出。
解决学术问题
ShareGPT-Chinese-English-90k数据集解决了当前对话系统研究中的一个关键问题,即如何获取高质量、真实且多样化的对话数据。传统的对话数据集往往依赖于API模拟生成,这些数据虽然在数量上占优,但在质量和真实性上存在局限。该数据集通过收集真实用户的问答对,不仅提供了丰富的语料资源,还确保了数据的真实性和多样性,这对于提升对话模型的性能和泛化能力具有重要意义。
实际应用
在实际应用中,ShareGPT-Chinese-English-90k数据集被广泛用于开发和优化双语对话系统,特别是在需要处理复杂用户指令和多轮对话的场景中。例如,在智能客服、虚拟助手和在线教育等领域,该数据集能够帮助模型更好地理解和响应用户的需求,提升用户体验。此外,该数据集的中英文平行语料特性,也使其在跨语言对话系统的开发中具有独特的优势。
数据集最近研究
最新研究方向
在自然语言处理领域,ShareGPT-Chinese-English-90k数据集因其高质量的中英文双语问答数据而备受关注。该数据集不仅提供了语义对等的平行语料,还通过真实用户提问确保了数据的实用性和多样性。近期研究主要集中在利用该数据集训练更为鲁棒和智能的对话模型,特别是在多轮对话和跨语言理解方面。此外,随着ChatGPT等大型语言模型的不断发展,如何利用高质量数据集提升模型在复杂场景下的表现成为研究热点。ShareGPT-Chinese-English-90k的独特性在于其自然过滤机制,这为研究者提供了更为纯净和贴近实际应用的数据源,推动了对话系统在真实世界中的应用和优化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

stanford_cars

该数据集是一个包含多个汽车品牌和型号的图片数据集,每个图片样本都标记有相应的汽车品牌和型号信息。数据集适用于图像识别和分类任务,特别是汽车品牌和型号的识别。

huggingface 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

IR-500K

IR-500K是一个大型红外数据集,包含500,000张红外图像,涵盖了各种场景和物体在不同环境条件下的图像。

github 收录