IndustryCorpus_ai
收藏Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_ai
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了解决行业模型训练数据集存在的问题而构建的,包含3.4TB的高质量多行业分类的中英文预训练数据,其中1TB为中文数据,2.4TB为英文数据。数据集涵盖18个行业类别,包括医疗、教育、文学、金融等,并对中文数据进行了12种类型的标签标注。数据处理包括22个行业数据处理操作符的应用,基于规则和模型的过滤,以及文档级别的去重处理。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总
数据集概述
数据集基本信息
- 许可证:Apache-2.0
- 语言:中文、英文
- 数据量:超过1TB
- 任务类别:文本生成
数据集构建
- 原始数据来源:包括WuDaoCorpora、BAAI-CCI、redpajama、SkyPile-150B等超过100TB的开放源数据集。
- 处理方法:应用22个行业数据处理操作符进行清洗和过滤。
- 过滤后数据量:1TB中文数据,2.4TB英文数据。
数据标注
- 中文数据标注:包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度等12种标签。
数据验证
- 验证方法:在医疗行业示范模型上进行持续预训练、SFT和DPO训练。
- 验证结果:客观性能提升20%,主观胜率82%。
数据集详细信息
- 行业分类:包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等18个类别。
- 基于规则的过滤:包括繁体中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等。
- 基于模型的过滤:行业分类语言模型,准确率80%。
- 数据去重:MinHash文档级去重。
行业分类数据量
| 行业类别 | 数据量 (GB) | 行业类别 | 数据量 (GB) |
|---|---|---|---|
| 编程 | 4.1 | 政治 | 326.4 |
| 法律 | 274.6 | 数学 | 5.9 |
| 教育 | 458.1 | 体育 | 442 |
| 金融 | 197.8 | 文学 | 179.3 |
| 计算机科学 | 46.9 | 新闻 | 564.1 |
| 技术 | 333.6 | 影视 | 162.1 |
| 旅游 | 82.5 | 医学 | 189.4 |
| 农业 | 41.6 | 汽车 | 40.8 |
| 情感 | 31.7 | 人工智能 | 5.6 |
| 总计 (GB) | 3386.5 |
搜集汇总
数据集介绍

构建方式
IndustryCorpus_ai数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中,通过22种行业数据处理算子,清洗和过滤出3.4TB的高质量多行业分类中英文预训练数据。具体包括1TB的中文数据和2.4TB的英文数据。中文数据进一步标注了12种标签,如字母数字比例、平均行长度、语言置信度分数等,以确保数据的专业性和可用性。
特点
IndustryCorpus_ai数据集的特点在于其广泛的行业覆盖和精细的数据标注。该数据集涵盖了18个行业类别,包括医疗、教育、文学、金融等,每个类别的数据量均经过精确统计。中文数据通过多种规则和模型过滤,确保了数据的纯净度和专业性。此外,数据集还进行了文档级别的去重处理,进一步提升了数据的质量。
使用方法
IndustryCorpus_ai数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以根据需要下载特定行业的子数据集,进行模型训练或研究。数据集的中文标注信息为模型的微调和优化提供了便利。此外,数据集的处理流程清晰,用户可参考提供的流程图进行数据处理和模型训练,以实现最佳的应用效果。
背景与挑战
背景概述
IndustryCorpus_ai数据集是面向行业模型训练的高质量多行业分类中英文预训练数据集,旨在解决当前行业模型训练中数据量不足、质量低下及缺乏领域专业知识的问题。该数据集由多个开源数据集(如WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B)经过22种行业数据处理操作符的清洗和过滤,最终从超过100TB的原始数据中提取出3.4TB的高质量数据,其中中文数据1TB,英文数据2.4TB。数据集涵盖了医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等18个行业类别,并通过标注12种标签(如字母数字比例、平均行长度、语言置信度分数等)进一步提升了数据的可用性。该数据集的构建为行业模型的性能提升和应用落地提供了重要支持,尤其在医疗行业示范模型上的实验表明,其客观性能提升了20%,主观胜率达到82%。
当前挑战
IndustryCorpus_ai数据集在构建过程中面临多重挑战。首先,行业数据的多样性和复杂性要求数据清洗和过滤操作具备高度的领域适应性,例如传统中文转换、电子邮件移除、IP地址移除等规则过滤操作需精准执行,以确保数据的纯净性。其次,数据标注和分类的准确性直接影响模型的训练效果,尽管采用了行业分类语言模型进行过滤,但其80%的准确率仍需进一步提升。此外,数据去重(如MinHash文档级去重)和大规模数据处理(如3.4TB数据的存储与分发)也对计算资源和存储能力提出了极高要求。最后,如何平衡数据规模与质量,以及如何确保数据在不同行业模型中的通用性,仍是未来研究的重要方向。
常用场景
经典使用场景
在人工智能领域,IndustryCorpus_ai数据集被广泛应用于多行业模型的预训练和微调。其高质量的中英文数据为模型提供了丰富的行业知识,特别是在医疗、教育、金融等18个行业领域,显著提升了模型的行业适应性和准确性。通过持续预训练、SFT和DPO训练,该数据集在医疗行业示范模型上实现了20%的客观性能提升和82%的主观胜率。
实际应用
在实际应用中,IndustryCorpus_ai数据集被广泛应用于企业智能化转型和创新发展中。例如,在医疗行业,该数据集通过持续预训练和微调,显著提升了医疗模型的诊断准确性和效率。在教育领域,该数据集为智能教育系统提供了丰富的教育资源,提升了教学质量和个性化学习体验。此外,该数据集还在金融、法律、新闻等多个行业中得到了广泛应用,推动了行业模型的智能化和专业化发展。
衍生相关工作
基于IndustryCorpus_ai数据集,研究者们开发了一系列经典的行业模型和应用。例如,在医疗领域,研究者利用该数据集训练了高精度的医疗诊断模型,显著提升了诊断效率和准确性。在教育领域,该数据集被用于开发智能教育系统,提供了个性化的学习资源和教学建议。此外,该数据集还在金融、法律、新闻等多个行业中催生了一系列创新应用,如智能投顾、法律咨询系统和新闻推荐系统等,推动了行业模型的智能化和专业化发展。
以上内容由遇见数据集搜集并总结生成



