MT-SFT-ShareGPT
收藏Hugging Face2024-08-16 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/thomas-yanxin/MT-SFT-ShareGPT
下载链接
链接失效反馈官方服务:
资源简介:
MT-SFT-ShareGPT数据集是一个高质量的开源数据集集合,用于微调大型语言模型的指令。该数据集分为三大类:英语、中文和其他语言,并根据不同任务分为13个子类别。总数据量为5,563,444个样本。数据处理部分说明了使用多种模型和数据集进行评分、分类和确保安全标准的过程。每个样本都符合ShareGPT格式,这是社区中训练大型语言模型的常见规范。
MT-SFT-ShareGPT Dataset is a high-quality open-source dataset collection for instruction tuning of large language models. It is divided into three major categories: English, Chinese, and other languages, and is categorized into 13 subcategories based on different tasks. The total number of samples is 5,563,444. The data processing section elaborates on the process of utilizing multiple models and datasets for scoring, classification, and ensuring compliance with safety standards. Each sample adheres to the ShareGPT format, a widely adopted convention for large language model training within the community.
创建时间:
2024-08-16
原始信息汇总
MT-SFT-ShareGPT 数据集概述
数据集信息
- 许可证:Apache-2.0
- 任务类别:
- 问答
- 翻译
- 摘要
- 文本分类
- 语言:
- 英语
- 中文
- 数据量:1M < n < 10M
数据集介绍
该数据集基于开源社区收集的数十个高质量开源数据集,经过清洗后,开放了一套用于微调大型语言模型指令的高质量数据集。数据集分为三大类:英语、中文和其他语言,并根据不同任务分为13个子类别。
- 总数据量:5,563,444
数据分类
英语 (EN)
| 分类 | 总数 | 信息寻求 | 推理 | 规划 | 编辑 | 编码 | 数学 | 角色扮演 | 数据分析 | 创意写作 | 寻求建议 | 头脑风暴 | 翻译 | 其他 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 样本 | 3,895,845 | 571,468 | 326,777 | 76,477 | 44,163 | 926,521 | 1,339,602 | 10,636 | 19,597 | 62,150 | 17,197 | 1,821 | 3,357 | 496,079 |
| 词数 | 437.14 | 558 | 371 | 819 | 474 | 476 | 344 | 518 | 550 | 808 | 622 | 571 | 155 | 398 |
| 得分 | 0.29 | 0.28 | 0.24 | 0.32 | 0.22 | 0.28 | 0.30 | 0.23 | 0.19 | 0.39 | 0.46 | 0.36 | 0.51 | 0.27 |
| 轮次 | 1.21 | 1.78 | 1.16 | 1.84 | 1.43 | 1.01 | 1.02 | 1.81 | 1.25 | 1.84 | 1.79 | 1.63 | 1.10 | 1.17 |
中文 (CN)
| 分类 | 总数 | 信息寻求 | 推理 | 规划 | 编辑 | 编码 | 数学 | 角色扮演 | 数据分析 | 创意写作 | 寻求建议 | 头脑风暴 | 翻译 | 其他 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 样本 | 1,635,223 | 558,187 | 237,906 | 45,327 | 94,058 | 87,689 | 109,694 | 37,695 | 16,578 | 175,587 | 30,656 | 4,620 | 0 | 237,226 |
| 词数 | 272.79 | 290.12 | 244.53 | 356.71 | 194.36 | 404 | 273.10 | 287 | 313 | 276 | 286 | 316 | 0 | 216.16 |
| 得分 | 0.35 | 0.34 | 0.36 | 0.25 | 0.42 | 0.77 | 0.24 | -0.01 | 0.12 | 0.36 | 0.380 | -0.03 | 0 | 0.33 |
| 轮次 | 1.20 | 1.09 | 1.05 | 1.14 | 1.08 | 1.17 | 1.11 | 1.10 | 1.14 | 1.91 | 1.09 | 2.87 | 0 | 1.17 |
其他语言 (Others)
| 分类 | 总数 | 信息寻求 | 推理 | 规划 | 编辑 | 编码 | 数学 | 角色扮演 | 数据分析 | 创意写作 | 寻求建议 | 头脑风暴 | 翻译 | 其他 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 样本 | 32,376 | 10,504 | 2,310 | 663 | 895 | 3,081 | 2,050 | 147 | 118 | 1,041 | 483 | 38 | 0 | 11,046 |
| 词数 | 452.52 | 443.44 | 502.11 | 825.08 | 577.28 | 545.38 | 450.24 | 858.58 | 793.2 | 752.52 | 608.77 | 773.05 | 0 | 347.57 |
| 得分 | 0.12 | -0.08 | -0.1 | 0.2 | 0.16 | 0.17 | 0.04 | 0.11 | 0.11 | 0.24 | -0.1 | -0.26 | 0 | 0.36 |
| 轮次 | 1.30 | 1.31 | 1.35 | 1.62 | 1.48 | 1.25 | 1.08 | 1.47 | 1.47 | 1.66 | 1.57 | 1.92 | 0 | 1.23 |
数据处理
数据集使用以下模型进行处理:
- internlm/internlm2-reward
- sfairXC/FsfairX-LLaMA3-RM-v0.1
- Qwen/Qwen2-7B-Instruct
- meta-llama/Llama-Guard-3-8B
每个样本符合ShareGPT格式,这是社区中用于训练大型语言模型的流行规范。
搜集汇总
数据集介绍

构建方式
MT-SFT-ShareGPT数据集的构建基于开源社区中数十个高质量数据集,经过清洗和整理后,形成了一个包含20M数据量的指令微调数据集。该数据集涵盖了英语、中文及其他语言,并根据不同任务划分为13个子类别。数据集的构建过程中,使用了多个预训练模型进行样本评分、任务分类和质量评估,确保数据的多样性和高质量。
特点
MT-SFT-ShareGPT数据集的特点在于其广泛的任务覆盖范围和高数据量。数据集包含超过500万条样本,涵盖了信息检索、推理、规划、编辑、编码、数学、角色扮演、数据分析、创意写作、建议寻求、头脑风暴、翻译等多个任务类别。每个样本均经过严格的质量评分和安全检查,确保数据的可靠性和适用性。此外,数据集支持多语言处理,尤其在中英文任务上具有显著优势。
使用方法
MT-SFT-ShareGPT数据集适用于大语言模型的指令微调任务。用户可以通过HuggingFace平台直接加载数据集,并利用其提供的样本进行模型训练和评估。数据集中的每个样本均符合ShareGPT格式,便于直接应用于对话生成、问答系统、翻译任务等场景。此外,数据集还提供了详细的分类和质量评分信息,用户可根据具体需求筛选和调整数据,以优化模型性能。
背景与挑战
背景概述
MT-SFT-ShareGPT数据集是一个面向大规模语言模型指令微调的高质量数据集,由开源社区贡献的多个数据集整合而成。该数据集由Thomas Yanxin等人主导开发,涵盖了英语、中文及其他语言的多样化任务,总计包含超过500万条样本。数据集的主要目标是为语言模型提供多样化的指令数据,以提升其在问答、翻译、摘要生成、文本分类等任务中的表现。该数据集的构建基于ShareGPT格式,确保了数据的标准化和可扩展性,为语言模型的微调提供了丰富的资源。其影响力不仅体现在多语言支持上,还通过高质量的数据标注和分类,推动了语言模型在复杂任务中的性能提升。
当前挑战
MT-SFT-ShareGPT数据集在构建和应用过程中面临多重挑战。首先,数据质量的保证是一个核心问题,尽管数据集经过清洗和评分,但如何确保每条样本的准确性和多样性仍需进一步优化。其次,多语言数据的平衡性也是一个挑战,不同语言之间的数据分布不均可能导致模型在某些语言上的表现欠佳。此外,数据的安全性和合规性也是关键问题,尽管使用了Llama-Guard等工具进行安全过滤,但仍需持续监控和更新以确保数据的安全性。最后,数据集的规模虽然庞大,但如何有效利用这些数据并避免过拟合仍是实际应用中的一大挑战。
常用场景
经典使用场景
MT-SFT-ShareGPT数据集在自然语言处理领域中被广泛用于大语言模型的指令微调任务。该数据集涵盖了多种任务类型,包括问答、翻译、摘要和文本分类等,尤其适用于多语言环境下的模型训练。通过提供高质量的多轮对话数据,研究人员能够更好地优化模型在复杂任务中的表现,提升其生成和理解能力。
解决学术问题
MT-SFT-ShareGPT数据集解决了大语言模型在多任务和多语言场景下的泛化能力问题。通过提供丰富的任务分类和多语言数据,该数据集帮助研究人员克服了模型在跨语言和跨任务迁移中的挑战,显著提升了模型在低资源语言和复杂任务中的表现。此外,数据集的高质量评分和安全过滤机制也为模型的安全性和可靠性提供了保障。
衍生相关工作
基于MT-SFT-ShareGPT数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了多任务学习框架,显著提升了模型在跨任务场景下的表现;同时,该数据集也被用于改进低资源语言的翻译模型,推动了多语言自然语言处理技术的发展。此外,数据集的安全过滤机制也为后续研究提供了重要的参考,促进了模型安全性和伦理研究的深入。
以上内容由遇见数据集搜集并总结生成



