shareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集

hugging_face2024-08-16 更新2024-03-04 收录

自然语言处理

指令微调

下载链接：

https://hf-mirror.com/datasets/shareAI/ShareGPT-Chinese-English-90k

下载链接

链接失效反馈

资源简介：

--- license: apache-2.0 configs: - config_name: default data_files: sharegpt_jsonl/*.jsonl task_categories: - question-answering - text-generation language: - en - zh tags: - code size_categories: - 10K<n<100K --- # ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset A high-quality Chinese-English parallel bilingual human-machine QA dataset, covering user questions in real and complex scenarios. It is used for training high-quality dialogue models (more robust in instruction distribution than those datasets generated by repeatedly calling API interfaces to simulate machine-generated Q&A, like Moss) Features: - 1. Provides fully semantically equivalent Chinese-English parallel corpus, facilitating bilingual dialogue model training. - 2. All questions are genuine inquiries from users, not fabricated by artificial imagination or API polling (like Moss), aligning more closely with the real distribution of user scenarios and their expressions of questions. - 3. The ShareGPT dataset is collected through voluntary sharing by netizens, acting as a natural filter (via human perception) that screens out most dialogues with poor experience. It is recommended to use the Firefly framework for quick and easy out-of-the-box loading of this data format: https://github.com/yangjianxin1/Firefly Note: This dataset was collected at a time before ChatGPT showed signs of significant cognitive decline. (It is speculated that this may be partly because the official replaced the 150B gpt3.5 with a distilled version of about 10B to reduce expenses, and partly because the introduction of more refusal responses led to a degradation in the model's ability to connect knowledge and logic.) The training of an excellent dialogue LLM cannot do without a high-quality multi-turn dialogue dataset. If you also wish to become a volunteer, you are welcome to join the dataset QQ group: 130920969, to exchange, collect, and contribute to the construction of high-quality datasets. # ShareGPT-Chinese-English-90k 中英文双语人机问答数据集中英文平行双语优质人机问答数据集，覆盖真实复杂场景下的用户提问。用于训练高质量的对话模型（比那些通过反复调用api接口生成机器模拟问答的数据在指令分布上更鲁棒）特点： - 1.同时提供意义表达完全相同的中英文平行对照语料，可进行双语对话模型训练。 - 2.所有问题均非人为臆想加上api轮询拟造的假数据（如Moss)，更加符合真实用户场景的指令分布和提问表达。 - 3.sharegpt数据集是由网友自发分享而收集到的，相当于有一层非常天然的过滤（通过人类感觉），筛除了大部分体验不好的对话。推荐使用firefly框架，可以快速开箱即用使用该数据格式的加载: https://github.com/yangjianxin1/Firefly PS：当前数据集为firefly格式，可以自行使用仓库内提供的脚本转换为更广为使用的sharegpt格式的多轮对话数据集. ```python import json def convert_jsonl(input_file, output_file): with open(input_file, 'r', encoding='utf-8') as f: with open(output_file, 'w', encoding='utf-8') as fout: for line in f: data = json.loads(line.strip()) conversations = data['conversation'] new_conversations = [] for conv in conversations: for key, value in conv.items(): if key == 'assistant': key = 'gpt' else: key = 'human' new_conversations.append({'from': key, 'value': value}) new_data = {'conversations': new_conversations} fout.write(json.dumps(new_data, ensure_ascii=False) + '\n') # 替换输入文件路径和输出文件路径 input_file = 'input_firefly.jsonl' output_file = 'output_sharegpt.jsonl' convert_jsonl(input_file, output_file) ``` 补充：该数据收集于chatGPT还未表现出明显智力退化的时间点。（猜测一方面可能是官方为了减小开支把150B的gpt3.5替换成10b左右的蒸馏版本了，另一方面可能是由于引入了更多的拒绝答复导致模型连接知识逻辑的程度退化）优秀对话llm的训练离不开高质量的多轮对话数据集，如果你也想成为志愿者欢迎加入shareAI QQ群：130920969，共同进行优质数据集的交流、收集和建设工作特别感谢：“淮北艾阿网络科技有限公司”对翻译工作费用的赞助支持！ <img width="360" src="https://cdn-uploads.huggingface.co/production/uploads/631f5b422225f12fc0f2c838/rnAz74Adg-m8QbRraXhqU.jpeg"> 如果您的工作成果使用到了该项目，请按如下方式进行引用： If your work results use this project, please cite it as follows: ``` @misc{ShareGPT-Chinese-English-90k, author = {shareAI}, title = {ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset}, year = {2023}, publisher = {huggingface}, journal = {huggingface repository}, howpublished = {\url{https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k}} } ```

提供机构：

shareAI

原始信息汇总

ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset 概述

数据集基本信息

许可证: Apache-2.0
配置文件: 默认配置，数据文件位于 sharegpt_jsonl/*.jsonl
任务类别: 问答、文本生成
语言: 英语、中文
标签: 代码
数据集大小: 10K<n<100K

数据集特点

双语平行语料: 提供完全语义等价的中英文平行语料，支持双语对话模型训练。
真实用户问题: 所有问题均为真实用户提问，非人工臆想或API轮询生成，更符合真实用户场景。
自然过滤: 数据集通过网友自发分享收集，自然过滤了体验不佳的对话。

使用建议

推荐使用Firefly框架快速加载数据集。

AI搜集汇总

数据集介绍

构建方式

ShareGPT-Chinese-English-90k数据集通过网友自发分享的方式构建，涵盖了真实复杂场景下的用户提问。该数据集不仅提供了中英文平行对照的语料，还通过自然过滤机制筛选出体验良好的对话，确保了数据的高质量。此外，数据集的收集时间点在ChatGPT表现出明显智力退化之前，进一步保证了数据的时效性和可靠性。

使用方法

使用ShareGPT-Chinese-English-90k数据集时，推荐采用Firefly框架进行快速加载和处理。用户可以通过提供的脚本将数据集转换为更广泛使用的ShareGPT格式，以便进行多轮对话模型的训练。此外，数据集的引用信息应按照提供的格式进行，以确保学术和实践中的规范性。

背景与挑战

背景概述

ShareGPT-Chinese-English-90k数据集是由shareAI团队于2023年创建的高质量中英文双语人机问答数据集，旨在为训练高质量的对话模型提供丰富的语料资源。该数据集的核心研究问题在于如何通过真实用户提问的收集与整理，构建一个能够反映真实场景指令分布的双语对话数据集，从而提升对话模型的鲁棒性和实用性。主要研究人员和机构包括shareAI团队及其合作者，他们通过网友自发分享的方式收集数据，确保了数据的真实性和多样性。这一数据集的推出，对中英文双语对话模型的训练和优化具有重要影响，为相关领域的研究提供了宝贵的资源。

当前挑战

ShareGPT-Chinese-English-90k数据集在构建过程中面临多项挑战。首先，如何确保收集到的用户提问具有高度的真实性和代表性，而非通过API轮询生成的模拟数据，是一个关键问题。其次，数据集需要提供意义完全相同的中英文平行语料，这对翻译质量和语义对齐提出了高要求。此外，数据集的收集和整理过程中，如何有效过滤体验不佳的对话，确保数据质量，也是一个不容忽视的挑战。最后，数据集的构建需考虑如何适应不同对话模型的训练需求，确保其在实际应用中的广泛适用性。

常用场景

经典使用场景

ShareGPT-Chinese-English-90k数据集的经典使用场景在于训练高质量的双语对话模型。该数据集提供了大量真实用户在复杂场景下的中英文问答对，这些问答对不仅语义等价，而且来源于真实用户的自然提问，而非通过API模拟生成。这种真实性和多样性使得该数据集在训练对话系统时能够显著提升模型的鲁棒性和适应性，特别是在处理多轮对话和复杂指令时表现尤为突出。

解决学术问题

ShareGPT-Chinese-English-90k数据集解决了当前对话系统研究中的一个关键问题，即如何获取高质量、真实且多样化的对话数据。传统的对话数据集往往依赖于API模拟生成，这些数据虽然在数量上占优，但在质量和真实性上存在局限。该数据集通过收集真实用户的问答对，不仅提供了丰富的语料资源，还确保了数据的真实性和多样性，这对于提升对话模型的性能和泛化能力具有重要意义。

实际应用

在实际应用中，ShareGPT-Chinese-English-90k数据集被广泛用于开发和优化双语对话系统，特别是在需要处理复杂用户指令和多轮对话的场景中。例如，在智能客服、虚拟助手和在线教育等领域，该数据集能够帮助模型更好地理解和响应用户的需求，提升用户体验。此外，该数据集的中英文平行语料特性，也使其在跨语言对话系统的开发中具有独特的优势。

数据集最近研究

最新研究方向

在自然语言处理领域，ShareGPT-Chinese-English-90k数据集因其高质量的中英文双语问答数据而备受关注。该数据集不仅提供了语义对等的平行语料，还通过真实用户提问确保了数据的实用性和多样性。近期研究主要集中在利用该数据集训练更为鲁棒和智能的对话模型，特别是在多轮对话和跨语言理解方面。此外，随着ChatGPT等大型语言模型的不断发展，如何利用高质量数据集提升模型在复杂场景下的表现成为研究热点。ShareGPT-Chinese-English-90k的独特性在于其自然过滤机制，这为研究者提供了更为纯净和贴近实际应用的数据源，推动了对话系统在真实世界中的应用和优化。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局（NASA）发布的卫星数据集，主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据，用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录