five

shareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集

收藏
hugging_face2024-08-16 更新2024-03-04 收录
自然语言处理
指令微调
下载链接:
https://hf-mirror.com/datasets/shareAI/ShareGPT-Chinese-English-90k
下载链接
链接失效反馈
资源简介:
--- license: apache-2.0 configs: - config_name: default data_files: sharegpt_jsonl/*.jsonl task_categories: - question-answering - text-generation language: - en - zh tags: - code size_categories: - 10K<n<100K --- # ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset A high-quality Chinese-English parallel bilingual human-machine QA dataset, covering user questions in real and complex scenarios. It is used for training high-quality dialogue models (more robust in instruction distribution than those datasets generated by repeatedly calling API interfaces to simulate machine-generated Q&A, like Moss) Features: - 1. Provides fully semantically equivalent Chinese-English parallel corpus, facilitating bilingual dialogue model training. - 2. All questions are genuine inquiries from users, not fabricated by artificial imagination or API polling (like Moss), aligning more closely with the real distribution of user scenarios and their expressions of questions. - 3. The ShareGPT dataset is collected through voluntary sharing by netizens, acting as a natural filter (via human perception) that screens out most dialogues with poor experience. It is recommended to use the Firefly framework for quick and easy out-of-the-box loading of this data format: https://github.com/yangjianxin1/Firefly Note: This dataset was collected at a time before ChatGPT showed signs of significant cognitive decline. (It is speculated that this may be partly because the official replaced the 150B gpt3.5 with a distilled version of about 10B to reduce expenses, and partly because the introduction of more refusal responses led to a degradation in the model's ability to connect knowledge and logic.) The training of an excellent dialogue LLM cannot do without a high-quality multi-turn dialogue dataset. If you also wish to become a volunteer, you are welcome to join the dataset QQ group: 130920969, to exchange, collect, and contribute to the construction of high-quality datasets. # ShareGPT-Chinese-English-90k 中英文双语人机问答数据集 中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。用于训练高质量的对话模型 (比那些通过反复调用api接口生成机器模拟问答的数据在指令分布上更鲁棒) 特点: - 1.同时提供意义表达完全相同的中英文平行对照语料,可进行双语对话模型训练。 - 2.所有问题均非人为臆想加上api轮询拟造的假数据(如Moss),更加符合真实用户场景的指令分布和提问表达。 - 3.sharegpt数据集是由网友自发分享而收集到的,相当于有一层非常天然的过滤(通过人类感觉),筛除了大部分体验不好的对话。 推荐使用firefly框架,可以快速开箱即用使用该数据格式的加载: https://github.com/yangjianxin1/Firefly PS:当前数据集为firefly格式,可以自行使用仓库内提供的脚本转换为更广为使用的sharegpt格式的多轮对话数据集. ```python import json def convert_jsonl(input_file, output_file): with open(input_file, 'r', encoding='utf-8') as f: with open(output_file, 'w', encoding='utf-8') as fout: for line in f: data = json.loads(line.strip()) conversations = data['conversation'] new_conversations = [] for conv in conversations: for key, value in conv.items(): if key == 'assistant': key = 'gpt' else: key = 'human' new_conversations.append({'from': key, 'value': value}) new_data = {'conversations': new_conversations} fout.write(json.dumps(new_data, ensure_ascii=False) + '\n') # 替换输入文件路径和输出文件路径 input_file = 'input_firefly.jsonl' output_file = 'output_sharegpt.jsonl' convert_jsonl(input_file, output_file) ``` 补充:该数据收集于chatGPT还未表现出明显智力退化的时间点。(猜测一方面可能是官方为了减小开支把150B的gpt3.5替换成10b左右的蒸馏版本了,另一方面可能是由于引入了更多的拒绝答复导致模型连接知识逻辑的程度退化) 优秀对话llm的训练离不开高质量的多轮对话数据集,如果你也想成为志愿者 欢迎加入shareAI QQ群:130920969,共同进行优质数据集的交流、收集和建设工作 特别感谢:“淮北艾阿网络科技有限公司”对翻译工作费用的赞助支持! <img width="360" src="https://cdn-uploads.huggingface.co/production/uploads/631f5b422225f12fc0f2c838/rnAz74Adg-m8QbRraXhqU.jpeg"> 如果您的工作成果使用到了该项目,请按如下方式进行引用: If your work results use this project, please cite it as follows: ``` @misc{ShareGPT-Chinese-English-90k, author = {shareAI}, title = {ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset}, year = {2023}, publisher = {huggingface}, journal = {huggingface repository}, howpublished = {\url{https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k}} } ```
提供机构:
shareAI
原始信息汇总

ShareGPT-Chinese-English-90k Bilingual Human-Machine QA Dataset 概述

数据集基本信息

  • 许可证: Apache-2.0
  • 配置文件: 默认配置,数据文件位于 sharegpt_jsonl/*.jsonl
  • 任务类别: 问答、文本生成
  • 语言: 英语、中文
  • 标签: 代码
  • 数据集大小: 10K<n<100K

数据集特点

  1. 双语平行语料: 提供完全语义等价的中英文平行语料,支持双语对话模型训练。
  2. 真实用户问题: 所有问题均为真实用户提问,非人工臆想或API轮询生成,更符合真实用户场景。
  3. 自然过滤: 数据集通过网友自发分享收集,自然过滤了体验不佳的对话。

使用建议

推荐使用Firefly框架快速加载数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ShareGPT-Chinese-English-90k数据集通过网友自发分享的方式构建,涵盖了真实复杂场景下的用户提问。该数据集不仅提供了中英文平行对照的语料,还通过自然过滤机制筛选出体验良好的对话,确保了数据的高质量。此外,数据集的收集时间点在ChatGPT表现出明显智力退化之前,进一步保证了数据的时效性和可靠性。
使用方法
使用ShareGPT-Chinese-English-90k数据集时,推荐采用Firefly框架进行快速加载和处理。用户可以通过提供的脚本将数据集转换为更广泛使用的ShareGPT格式,以便进行多轮对话模型的训练。此外,数据集的引用信息应按照提供的格式进行,以确保学术和实践中的规范性。
背景与挑战
背景概述
ShareGPT-Chinese-English-90k数据集是由shareAI团队于2023年创建的高质量中英文双语人机问答数据集,旨在为训练高质量的对话模型提供丰富的语料资源。该数据集的核心研究问题在于如何通过真实用户提问的收集与整理,构建一个能够反映真实场景指令分布的双语对话数据集,从而提升对话模型的鲁棒性和实用性。主要研究人员和机构包括shareAI团队及其合作者,他们通过网友自发分享的方式收集数据,确保了数据的真实性和多样性。这一数据集的推出,对中英文双语对话模型的训练和优化具有重要影响,为相关领域的研究提供了宝贵的资源。
当前挑战
ShareGPT-Chinese-English-90k数据集在构建过程中面临多项挑战。首先,如何确保收集到的用户提问具有高度的真实性和代表性,而非通过API轮询生成的模拟数据,是一个关键问题。其次,数据集需要提供意义完全相同的中英文平行语料,这对翻译质量和语义对齐提出了高要求。此外,数据集的收集和整理过程中,如何有效过滤体验不佳的对话,确保数据质量,也是一个不容忽视的挑战。最后,数据集的构建需考虑如何适应不同对话模型的训练需求,确保其在实际应用中的广泛适用性。
常用场景
经典使用场景
ShareGPT-Chinese-English-90k数据集的经典使用场景在于训练高质量的双语对话模型。该数据集提供了大量真实用户在复杂场景下的中英文问答对,这些问答对不仅语义等价,而且来源于真实用户的自然提问,而非通过API模拟生成。这种真实性和多样性使得该数据集在训练对话系统时能够显著提升模型的鲁棒性和适应性,特别是在处理多轮对话和复杂指令时表现尤为突出。
解决学术问题
ShareGPT-Chinese-English-90k数据集解决了当前对话系统研究中的一个关键问题,即如何获取高质量、真实且多样化的对话数据。传统的对话数据集往往依赖于API模拟生成,这些数据虽然在数量上占优,但在质量和真实性上存在局限。该数据集通过收集真实用户的问答对,不仅提供了丰富的语料资源,还确保了数据的真实性和多样性,这对于提升对话模型的性能和泛化能力具有重要意义。
实际应用
在实际应用中,ShareGPT-Chinese-English-90k数据集被广泛用于开发和优化双语对话系统,特别是在需要处理复杂用户指令和多轮对话的场景中。例如,在智能客服、虚拟助手和在线教育等领域,该数据集能够帮助模型更好地理解和响应用户的需求,提升用户体验。此外,该数据集的中英文平行语料特性,也使其在跨语言对话系统的开发中具有独特的优势。
数据集最近研究
最新研究方向
在自然语言处理领域,ShareGPT-Chinese-English-90k数据集因其高质量的中英文双语问答数据而备受关注。该数据集不仅提供了语义对等的平行语料,还通过真实用户提问确保了数据的实用性和多样性。近期研究主要集中在利用该数据集训练更为鲁棒和智能的对话模型,特别是在多轮对话和跨语言理解方面。此外,随着ChatGPT等大型语言模型的不断发展,如何利用高质量数据集提升模型在复杂场景下的表现成为研究热点。ShareGPT-Chinese-English-90k的独特性在于其自然过滤机制,这为研究者提供了更为纯净和贴近实际应用的数据源,推动了对话系统在真实世界中的应用和优化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

NIH Chest X-rays

Over 112,000 Chest X-ray images from more than 30,000 unique patients

kaggle 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录