IndustryCorpus_programming
收藏Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_programming
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出的3.4TB高质量多行业分类中英文预训练数据。数据包括1TB中文数据和2.4TB英文数据,并对中文数据进行了12种类型的标签标注,如字母数字比、平均行长度、语言置信度分数等。数据集涵盖18个行业类别,包括医疗、教育、文学、金融等,并进行了基于规则和模型的过滤以及文档级去重。此外,通过在医疗行业示范模型上进行持续预训练、SFT和DPO训练,数据显示了20%的性能提升和82%的主观胜率。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总
数据集概述
数据集信息
- 许可证:Apache 2.0
- 语言:中文、英文
- 数据规模:超过1TB
- 任务类别:文本生成
数据集构建
- 数据来源:从超过100TB的开放源数据集中筛选,包括WuDaoCorpora、BAAI-CCI、redpajama、SkyPile-150B等。
- 数据处理:应用22个行业数据处理操作符,清理和过滤3.4TB的高质量多行业分类中英文预训练数据集。
- 数据细分:包含1TB中文数据和2.4TB英文数据。
- 数据标注:对中文数据进行12种类型的标签标注,包括字母数字比、平均行长度、语言置信度分数、最大行长度和困惑度等。
数据集验证
- 模型训练:在医疗行业示范模型上进行持续预训练、SFT和DPO训练。
- 性能提升:客观性能提升20%,主观胜率82%。
数据集分类
- 行业类别:包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等18个类别。
- 基于规则的过滤:包括繁体中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等。
- 基于模型的过滤:使用80%准确率的行业分类语言模型。
- 数据去重:采用MinHash文档级去重。
数据集大小
- 中文数据:1TB
- 英文数据:2.4TB
行业分类数据大小
| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) |
|---|---|---|---|
| 编程 | 4.1 | 政治 | 326.4 |
| 法律 | 274.6 | 数学 | 5.9 |
| 教育 | 458.1 | 体育 | 442 |
| 金融 | 197.8 | 文学 | 179.3 |
| 计算机科学 | 46.9 | 新闻 | 564.1 |
| 技术 | 333.6 | 影视 | 162.1 |
| 旅游 | 82.5 | 医学 | 189.4 |
| 农业 | 41.6 | 汽车 | 40.8 |
| 情感 | 31.7 | 人工智能 | 5.6 |
| 总计 (GB) | 3386.5 |
数据处理流程
- 数据处理流程图:数据处理流程图
搜集汇总
数据集介绍

构建方式
IndustryCorpus_programming数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中,通过22种行业数据处理算子,清洗和过滤出3.4TB的高质量多行业分类中英文预训练数据。具体而言,中文数据经过12种标签的标注,包括字母数字比例、平均行长度、语言置信度分数等,以确保数据的专业性和适用性。此外,数据集还采用了基于模型的过滤和文档级去重技术,进一步提升了数据的质量。
特点
IndustryCorpus_programming数据集的特点在于其广泛覆盖的行业类别和精细的数据标注。该数据集涵盖了18个行业类别,包括编程、法律、教育、金融等,每个类别都有明确的数据量统计。中文数据部分特别标注了多种语言特征指标,如字母数字比例、语言置信度分数等,这些标注为模型的训练提供了丰富的特征信息。此外,数据集通过规则和模型双重过滤,确保了数据的准确性和专业性,使其成为行业模型训练的理想选择。
使用方法
IndustryCorpus_programming数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以根据需求选择特定的行业子数据集进行下载和使用,例如编程行业的子数据集。数据集的中文部分提供了详细的标注信息,用户可以利用这些信息进行模型的微调和优化。此外,数据集的构建过程中采用了多种过滤和去重技术,确保了数据的高质量,用户可以直接将其用于预训练、微调或特定任务的训练中,以提升模型的性能和效果。
背景与挑战
背景概述
IndustryCorpus_programming数据集是由多个研究机构联合构建的高质量多行业分类中英文预训练数据集,旨在解决当前行业模型训练中数据量不足、质量低下及缺乏领域专业知识的问题。该数据集创建于2023年,基于WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等开源数据集,通过22种行业数据处理算子进行清洗和过滤,最终形成了1TB中文和2.4TB英文的高质量数据。数据集涵盖医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等18个行业类别,并通过规则和模型双重过滤确保数据质量。该数据集的构建显著提升了行业模型的性能,尤其在医疗行业示范模型中,客观性能提升了20%,主观胜率达到82%。
当前挑战
IndustryCorpus_programming数据集在构建过程中面临多重挑战。首先,数据清洗和过滤的复杂性较高,需通过22种行业数据处理算子对超过100TB的原始数据进行处理,确保数据的多样性和专业性。其次,数据标注的准确性要求极高,中文数据需标注12种标签,如字母数字比例、平均行长度、语言置信度等,这对数据处理工具和算法提出了较高要求。此外,数据去重和行业分类的准确性也是关键挑战,需通过MinHash文档级去重和行业分类语言模型(准确率80%)确保数据的唯一性和行业相关性。最后,如何在保证数据质量的同时,高效处理大规模数据并生成可用的子数据集,也是该数据集构建过程中需要克服的技术难题。
常用场景
经典使用场景
IndustryCorpus_programming数据集在编程领域的经典使用场景主要体现在其作为高质量预训练数据源,支持大规模语言模型的训练与优化。该数据集通过多行业分类的中英文数据,特别是编程领域的4.1GB数据,为开发者提供了丰富的语料资源,助力编程语言模型的精准训练与性能提升。
解决学术问题
该数据集有效解决了行业模型训练中数据量不足、质量低下及领域专业知识匮乏的学术研究问题。通过22种行业数据处理算子的清洗与过滤,以及12类中文数据标签的标注,显著提升了数据的可用性与专业性,为行业模型的性能优化提供了坚实基础。
衍生相关工作
基于该数据集,衍生了一系列经典研究工作,如编程语言模型的持续预训练、指令微调(SFT)和直接偏好优化(DPO)等。这些工作在医疗行业示范模型中的应用表明,数据集显著提升了模型的客观性能与主观胜率,为行业模型的落地应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成



