five

MT-SFT-ShareGPT|语言模型微调数据集|多语言处理数据集

收藏
huggingface2024-08-16 更新2024-12-12 收录
语言模型微调
多语言处理
下载链接:
https://huggingface.co/datasets/thomas-yanxin/MT-SFT-ShareGPT
下载链接
链接失效反馈
资源简介:
MT-SFT-ShareGPT数据集是一个高质量的开源数据集集合,用于微调大型语言模型的指令。该数据集分为三大类:英语、中文和其他语言,并根据不同任务分为13个子类别。总数据量为5,563,444个样本。数据处理部分说明了使用多种模型和数据集进行评分、分类和确保安全标准的过程。每个样本都符合ShareGPT格式,这是社区中训练大型语言模型的常见规范。
创建时间:
2024-08-16
原始信息汇总

MT-SFT-ShareGPT 数据集概述

数据集信息

  • 许可证:Apache-2.0
  • 任务类别
    • 问答
    • 翻译
    • 摘要
    • 文本分类
  • 语言
    • 英语
    • 中文
  • 数据量:1M < n < 10M

数据集介绍

该数据集基于开源社区收集的数十个高质量开源数据集,经过清洗后,开放了一套用于微调大型语言模型指令的高质量数据集。数据集分为三大类:英语、中文和其他语言,并根据不同任务分为13个子类别。

  • 总数据量:5,563,444

数据分类

英语 (EN)

分类 总数 信息寻求 推理 规划 编辑 编码 数学 角色扮演 数据分析 创意写作 寻求建议 头脑风暴 翻译 其他
样本 3,895,845 571,468 326,777 76,477 44,163 926,521 1,339,602 10,636 19,597 62,150 17,197 1,821 3,357 496,079
词数 437.14 558 371 819 474 476 344 518 550 808 622 571 155 398
得分 0.29 0.28 0.24 0.32 0.22 0.28 0.30 0.23 0.19 0.39 0.46 0.36 0.51 0.27
轮次 1.21 1.78 1.16 1.84 1.43 1.01 1.02 1.81 1.25 1.84 1.79 1.63 1.10 1.17

中文 (CN)

分类 总数 信息寻求 推理 规划 编辑 编码 数学 角色扮演 数据分析 创意写作 寻求建议 头脑风暴 翻译 其他
样本 1,635,223 558,187 237,906 45,327 94,058 87,689 109,694 37,695 16,578 175,587 30,656 4,620 0 237,226
词数 272.79 290.12 244.53 356.71 194.36 404 273.10 287 313 276 286 316 0 216.16
得分 0.35 0.34 0.36 0.25 0.42 0.77 0.24 -0.01 0.12 0.36 0.380 -0.03 0 0.33
轮次 1.20 1.09 1.05 1.14 1.08 1.17 1.11 1.10 1.14 1.91 1.09 2.87 0 1.17

其他语言 (Others)

分类 总数 信息寻求 推理 规划 编辑 编码 数学 角色扮演 数据分析 创意写作 寻求建议 头脑风暴 翻译 其他
样本 32,376 10,504 2,310 663 895 3,081 2,050 147 118 1,041 483 38 0 11,046
词数 452.52 443.44 502.11 825.08 577.28 545.38 450.24 858.58 793.2 752.52 608.77 773.05 0 347.57
得分 0.12 -0.08 -0.1 0.2 0.16 0.17 0.04 0.11 0.11 0.24 -0.1 -0.26 0 0.36
轮次 1.30 1.31 1.35 1.62 1.48 1.25 1.08 1.47 1.47 1.66 1.57 1.92 0 1.23

数据处理

数据集使用以下模型进行处理:

每个样本符合ShareGPT格式,这是社区中用于训练大型语言模型的流行规范。

AI搜集汇总
数据集介绍
main_image_url
构建方式
MT-SFT-ShareGPT数据集的构建基于开源社区中数十个高质量数据集,经过清洗和整理后,形成了一个包含20M数据量的指令微调数据集。该数据集涵盖了英语、中文及其他语言,并根据不同任务划分为13个子类别。数据集的构建过程中,使用了多个预训练模型进行样本评分、任务分类和质量评估,确保数据的多样性和高质量。
特点
MT-SFT-ShareGPT数据集的特点在于其广泛的任务覆盖范围和高数据量。数据集包含超过500万条样本,涵盖了信息检索、推理、规划、编辑、编码、数学、角色扮演、数据分析、创意写作、建议寻求、头脑风暴、翻译等多个任务类别。每个样本均经过严格的质量评分和安全检查,确保数据的可靠性和适用性。此外,数据集支持多语言处理,尤其在中英文任务上具有显著优势。
使用方法
MT-SFT-ShareGPT数据集适用于大语言模型的指令微调任务。用户可以通过HuggingFace平台直接加载数据集,并利用其提供的样本进行模型训练和评估。数据集中的每个样本均符合ShareGPT格式,便于直接应用于对话生成、问答系统、翻译任务等场景。此外,数据集还提供了详细的分类和质量评分信息,用户可根据具体需求筛选和调整数据,以优化模型性能。
背景与挑战
背景概述
MT-SFT-ShareGPT数据集是一个面向大规模语言模型指令微调的高质量数据集,由开源社区贡献的多个数据集整合而成。该数据集由Thomas Yanxin等人主导开发,涵盖了英语、中文及其他语言的多样化任务,总计包含超过500万条样本。数据集的主要目标是为语言模型提供多样化的指令数据,以提升其在问答、翻译、摘要生成、文本分类等任务中的表现。该数据集的构建基于ShareGPT格式,确保了数据的标准化和可扩展性,为语言模型的微调提供了丰富的资源。其影响力不仅体现在多语言支持上,还通过高质量的数据标注和分类,推动了语言模型在复杂任务中的性能提升。
当前挑战
MT-SFT-ShareGPT数据集在构建和应用过程中面临多重挑战。首先,数据质量的保证是一个核心问题,尽管数据集经过清洗和评分,但如何确保每条样本的准确性和多样性仍需进一步优化。其次,多语言数据的平衡性也是一个挑战,不同语言之间的数据分布不均可能导致模型在某些语言上的表现欠佳。此外,数据的安全性和合规性也是关键问题,尽管使用了Llama-Guard等工具进行安全过滤,但仍需持续监控和更新以确保数据的安全性。最后,数据集的规模虽然庞大,但如何有效利用这些数据并避免过拟合仍是实际应用中的一大挑战。
常用场景
经典使用场景
MT-SFT-ShareGPT数据集在自然语言处理领域中被广泛用于大语言模型的指令微调任务。该数据集涵盖了多种任务类型,包括问答、翻译、摘要和文本分类等,尤其适用于多语言环境下的模型训练。通过提供高质量的多轮对话数据,研究人员能够更好地优化模型在复杂任务中的表现,提升其生成和理解能力。
解决学术问题
MT-SFT-ShareGPT数据集解决了大语言模型在多任务和多语言场景下的泛化能力问题。通过提供丰富的任务分类和多语言数据,该数据集帮助研究人员克服了模型在跨语言和跨任务迁移中的挑战,显著提升了模型在低资源语言和复杂任务中的表现。此外,数据集的高质量评分和安全过滤机制也为模型的安全性和可靠性提供了保障。
衍生相关工作
基于MT-SFT-ShareGPT数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了多任务学习框架,显著提升了模型在跨任务场景下的表现;同时,该数据集也被用于改进低资源语言的翻译模型,推动了多语言自然语言处理技术的发展。此外,数据集的安全过滤机制也为后续研究提供了重要的参考,促进了模型安全性和伦理研究的深入。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。

arXiv 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录