IndustryCorpus_literature

Name: IndustryCorpus_literature
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-07-26 10:30:46
License: 暂无描述

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus_literature

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了改善行业模型性能而构建的，包含1TB中文和2.4TB英文的高质量多行业分类预训练数据。数据集通过22个数据处理操作符从100TB开放源数据中筛选出，并进行了12种类型的中文数据标签标注。数据集涵盖18个行业类别，包括医疗、教育、文学、金融等，并进行了基于规则和模型的过滤以及文档级别的去重。通过在医疗行业示范模型上的训练，显示了20%的客观性能提升和82%的主观胜率。

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-07-25

原始信息汇总

数据集概述

数据集描述

语言: 中文和英文
数据大小: 1TB中文数据，2.4TB英文数据
任务类别: 文本生成
行业分类: 18个行业类别，包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等

数据处理

数据来源: 从超过100TB的开放源数据集中筛选，包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
模型过滤: 使用行业分类语言模型，准确率80%
数据去重: MinHash文档级去重

数据标注

中文数据标注: 12种标签，包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度等

数据集表现

模型训练: 在医疗行业示范模型上进行连续预训练、SFT和DPO训练
性能提升: 客观性能提升20%，主观胜率82%

行业分类数据大小

行业类别	数据大小 (GB)	行业类别	数据大小 (GB)
编程	4.1	政治	326.4
法律	274.6	数学	5.9
教育	458.1	体育	442
金融	197.8	文学	179.3
计算机科学	46.9	新闻	564.1
技术	333.6	影视	162.1
旅游	82.5	医学	189.4
农业	41.6	汽车	40.8
情感	31.7	人工智能	5.6
总计 (GB)	3386.5

搜集汇总

数据集介绍

构建方式

IndustryCorpus_literature数据集的构建基于对超过100TB开源数据集（如WuDaoCorpora、BAAI-CCI等）的深度处理。通过应用22种行业数据处理算子，对原始数据进行清洗和过滤，最终筛选出3.4TB高质量的多行业分类中英文预训练数据。其中，中文数据经过12种标签的标注，包括字母数字比例、平均行长度等，以确保数据的多样性和专业性。

特点

该数据集涵盖了18个行业类别，包括医疗、教育、文学、金融等，数据总量达到3.4TB，其中中文数据1TB，英文数据2.4TB。数据集通过规则和模型双重过滤，确保数据的高质量和领域专业性。中文数据还额外标注了多种语言特征，如语言置信度得分、困惑度等，为模型训练提供了丰富的上下文信息。

使用方法

用户可通过下载分行业子数据集的方式获取数据，当前提供的是文学行业子数据集。数据集适用于文本生成任务，用户可直接用于预训练、微调（SFT）和直接偏好优化（DPO）等模型训练场景。通过实际验证，该数据集在医疗行业示范模型上的应用显著提升了模型性能，客观指标提升20%，主观胜率达82%。

背景与挑战

背景概述

IndustryCorpus_literature数据集是在企业智能化转型和创新发展的背景下应运而生的。随着大模型在各行业的广泛应用，高质量行业数据的需求日益凸显。然而，现有的行业模型训练数据集普遍存在数据量不足、质量低下以及缺乏领域专业知识等问题。为解决这些问题，研究团队通过应用22种行业数据处理算子，从超过100TB的开源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据，其中包括1TB中文数据和2.4TB英文数据。该数据集覆盖医疗、教育、文学、金融等18个行业类别，并通过标注和过滤技术提升了数据的可用性和专业性。其构建不仅为行业模型的训练提供了高质量数据支持，还通过实验验证了其在医疗行业模型中的显著性能提升。

当前挑战

IndustryCorpus_literature数据集在构建过程中面临多重挑战。首先，行业数据的多样性和复杂性使得数据清洗和过滤成为一项艰巨任务，需通过传统中文转换、邮件删除、IP地址删除等多种规则化处理手段确保数据质量。其次，数据标注的准确性直接影响模型的训练效果，研究团队通过引入语言置信度评分、困惑度等12种标签对中文数据进行精细化标注，但如何平衡标注成本与数据质量仍需进一步探索。此外，数据去重和行业分类的准确性也是关键挑战，研究团队采用MinHash文档级去重和行业分类语言模型进行优化，但其80%的准确率仍有提升空间。最后，如何将大规模数据集高效地分割为行业子集并确保其可用性，也是数据集构建中需要解决的重要问题。

常用场景

经典使用场景

在自然语言处理领域，IndustryCorpus_literature数据集被广泛应用于文本生成任务，尤其是在文学领域的模型训练中。该数据集通过提供高质量的文学文本，支持模型在文学创作、文本摘要、风格模仿等方面的应用。其多语言特性（中文和英文）使得模型能够在跨语言环境中表现出色，进一步推动了文学创作自动化的研究。

解决学术问题

IndustryCorpus_literature数据集解决了当前行业模型训练中数据量不足、质量低下以及缺乏领域专业知识的问题。通过从多个开源数据集中筛选和清洗出高质量的文学文本，该数据集为研究者提供了丰富的训练资源，显著提升了模型在文学领域的表现。其标注的多种语言特征（如字母数字比例、语言置信度等）也为文本质量评估提供了新的研究视角。

衍生相关工作

基于IndustryCorpus_literature数据集，研究者开发了多种文学领域的文本生成模型，如基于GPT的文学创作模型和跨语言文学风格迁移模型。这些模型在文学创作、文本摘要和风格模仿等任务中表现出色，推动了文学与人工智能的深度融合。此外，该数据集还催生了多个文学文本质量评估工具，为文本生成领域的研究提供了新的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集