IndustryCorpus

Name: IndustryCorpus
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-07-11 14:54:21
License: 暂无描述

Hugging Face2024-07-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集通过应用22个行业数据处理操作符，从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据集，包括1TB的中文数据和2.4TB的英文数据。中文数据被标注了12种类型的标签，涵盖18个行业类别，如医疗、教育、文学、金融等。数据集通过连续预训练、SFT和DPO训练在医疗行业示范模型上验证了性能，显示了20%的客观性能提升和82%的主观胜率。

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-07-10

原始信息汇总

数据集概述

数据集描述

语言: 中文和英文
数据量: 1TB中文数据，2.4TB英文数据
任务类别: 文本生成
行业分类: 18个行业类别，包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等

数据处理

数据来源: 从超过100TB的开放源数据集中筛选，包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
规则过滤: 包括繁体中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
模型过滤: 使用行业分类语言模型，准确率80%
数据去重: 使用MinHash文档级去重

数据标注

中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签

数据集性能验证

模型训练: 进行持续预训练、SFT和DPO训练
性能提升: 目标性能提升20%，主观胜率82%

行业分类数据量

行业类别	数据量 (GB)	行业类别	数据量 (GB)
编程	4.1	政治	326.4
法律	274.6	数学	5.9
教育	458.1	体育	442
金融	197.8	文学	179.3
计算机科学	46.9	新闻	564.1
技术	333.6	影视	162.1
旅游	82.5	医学	189.4
农业	41.6	汽车	40.8
情感	31.7	人工智能	5.6
总计 (GB)	3386.5

搜集汇总

数据集介绍

构建方式

IndustryCorpus数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中，通过22种行业数据处理算子对3.4TB的多行业分类中英文预训练数据进行了清洗与过滤。数据处理包括传统中文转换、电子邮件移除、IP地址移除、链接移除及Unicode修复等规则性过滤，以及基于行业分类语言模型的过滤，确保了数据的专业性与准确性。此外，数据集还进行了MinHash文档级去重处理，进一步提升了数据的质量。

使用方法

IndustryCorpus数据集的使用方法多样，适用于多种自然语言处理任务。研究者可以利用该数据集进行持续预训练、监督微调（SFT）和直接偏好优化（DPO）训练，以提升模型在特定行业领域的表现。数据集中的详细标注和分类信息为模型的训练和评估提供了便利，使得研究者能够针对具体行业需求进行定制化模型开发。此外，数据集的开放性和大规模特性也支持了跨行业的比较研究和创新应用的探索。

背景与挑战

背景概述

IndustryCorpus数据集是为推动企业智能化转型与创新发展而构建的高质量行业数据资源。该数据集由多个开源数据集（如WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B）经过22种行业数据处理操作符的清洗与过滤，最终从超过100TB的原始数据中提取出3.4TB的高质量多行业分类中英文预训练数据。数据集涵盖了医疗、教育、金融、法律、体育等18个行业类别，并针对中文数据进行了12种标签的标注，包括字母数字比例、平均行长度、语言置信度等。通过医学行业示范模型的持续预训练、SFT和DPO训练，验证了数据集在客观性能上提升了20%，主观胜率达到82%。该数据集的构建为行业大模型的性能提升与应用落地提供了重要支持。

当前挑战

IndustryCorpus数据集在构建过程中面临多重挑战。首先，原始数据质量参差不齐，存在噪声、重复和领域专业知识不足等问题，需通过复杂的规则和模型过滤技术进行清洗。其次，数据量庞大且分布不均，部分行业数据稀缺，需通过高效的文档级去重和行业分类语言模型进行优化。此外，中英文数据的混合处理对语言模型的训练提出了更高要求，需确保语言置信度和文本质量的平衡。最后，数据标注的复杂性和多样性增加了数据处理的工作量，需开发自动化工具以提高效率。这些挑战的解决为行业大模型的训练与应用奠定了坚实基础。

常用场景

经典使用场景

IndustryCorpus数据集在推动企业智能化转型和创新发展中扮演着关键角色。该数据集通过提供高质量的多行业分类中英文预训练数据，广泛应用于行业模型的训练和优化。其经典使用场景包括医疗、教育、金融等多个领域的模型开发，特别是在需要高精度和领域专业知识的情况下，该数据集能够显著提升模型的性能。

解决学术问题

IndustryCorpus数据集解决了当前行业模型训练中普遍存在的数据量不足、质量低下以及缺乏领域专业知识的问题。通过构建和应用22个行业数据处理算子，该数据集从超过100TB的开源数据中筛选出3.4TB的高质量数据，显著提升了模型的训练效果。实验结果表明，使用该数据集进行训练的模型在客观性能上提升了20%，主观胜率达到了82%。

实际应用

在实际应用中，IndustryCorpus数据集被广泛用于医疗、教育、金融等行业的智能化解决方案中。例如，在医疗行业，该数据集被用于训练医疗问答系统和诊断辅助工具，显著提高了系统的准确性和响应速度。此外，该数据集还被应用于金融行业的风险评估模型和教育行业的个性化学习系统，推动了这些领域的智能化发展。

数据集最近研究