IndustryCorpus_politics

Name: IndustryCorpus_politics
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-07-26 10:30:43
License: 暂无描述

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus_politics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了改进行业模型性能而构建的，包含3.4TB的高质量多行业分类中英文预训练数据，其中1TB为中文数据，2.4TB为英文数据。数据集通过22个行业数据处理算子从超过100TB的开放源数据集中筛选而来，涵盖18个行业类别，并对中文数据进行了12种类型的标签标注。此外，还进行了医疗行业示范模型的性能验证，显示出显著的性能提升。

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-07-25

原始信息汇总

数据集概述

数据集描述

该数据集是通过应用22个行业数据处理操作符，从超过100TB的开放源数据集中筛选出的高质量多行业分类中英文预训练数据集。原始数据包括WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等。筛选后的数据包括1TB的中文数据和2.4TB的英文数据。

数据处理

规则基础过滤：包括繁体中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等。
模型基础过滤：使用行业分类语言模型，准确率为80%。
数据去重：采用MinHash文档级去重。

数据标注

中文数据包含12种类型的标签，如字母数字比、平均行长度、语言置信度分数、最大行长度和困惑度等。

行业分类

数据集涵盖18个行业类别，包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等。

数据大小

总数据大小：1TB中文，2.4TB英文。
行业分类数据大小：

| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) | | :-------------------:|:----------------:|:-------------------:|:----------------:|| | 编程 | 4.1 | 政治 | 326.4 | | 法律 | 274.6 | 数学 | 5.9 | | 教育 | 458.1 | 体育 | 442 | | 金融 | 197.8 | 文学 | 179.3 | | 计算机科学 | 46.9 | 新闻 | 564.1 | | 技术 | 333.6 | 电影与电视 | 162.1 | | 旅游 | 82.5 | 医学 | 189.4 | | 农业 | 41.6 | 汽车 | 40.8 | | 情感 | 31.7 | 人工智能 | 5.6 | | 总计 (GB) | 3386.5 | | |

数据集验证

通过在医疗行业示范模型上进行持续预训练、SFT和DPO训练，结果显示客观性能提升20%，主观胜率82%。

搜集汇总

数据集介绍

构建方式

IndustryCorpus_politics数据集的构建过程体现了对高质量行业数据的追求。该数据集从超过100TB的开源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据，包括WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等。通过应用22种行业数据处理算子，对数据进行清洗和过滤，最终得到1TB的中文数据和2.4TB的英文数据。中文数据进一步标注了12种标签，如字母数字比例、平均行长度、语言置信度分数等，以确保数据的专业性和可用性。

特点

IndustryCorpus_politics数据集的特点在于其广泛覆盖的行业类别和精细的数据处理。该数据集涵盖了18个行业类别，包括医疗、教育、文学、金融等，每个类别的数据量均经过精确统计。数据通过规则和模型双重过滤，确保高质量和低噪声。中文数据标注了多种语言特征，便于用户进行深入分析。此外，数据集还进行了文档级别的去重处理，进一步提升了数据的纯净度。

使用方法

IndustryCorpus_politics数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可以根据需求下载特定行业的子数据集，如政治行业数据集。数据集的中文标注信息为文本生成、分类等任务提供了丰富的基础。通过继续预训练、SFT和DPO训练，用户可以在特定行业模型上验证数据集的性能。数据集的详细统计信息和处理流程图为用户提供了清晰的指导，便于快速上手和高效利用。

背景与挑战

背景概述

IndustryCorpus_politics数据集是近年来为应对行业模型训练中数据质量不足、领域专业知识匮乏等问题而构建的高质量多行业分类语料库。该数据集由多个开源数据集（如WuDaoCorpora、BAAI-CCI等）经过22种行业数据处理操作符的清洗和过滤，最终从超过100TB的原始数据中提取出3.4TB的高质量中英文预训练数据。其中，政治行业子集的数据量达到326.4GB，涵盖了18个行业类别之一。该数据集的构建旨在提升大模型在行业应用中的性能，特别是在政治领域的文本生成任务中表现出显著效果，验证实验显示其使医疗行业示范模型的客观性能提升了20%。

当前挑战

IndustryCorpus_politics数据集在构建过程中面临多重挑战。首先，原始数据中存在大量噪声，如无效字符、重复内容及非目标语言文本，需通过规则过滤和模型过滤相结合的方式进行清理。其次，数据标注的复杂性较高，中文数据需标注字母数字比例、语言置信度等12类标签，这对标注效率和准确性提出了较高要求。此外，数据去重和行业分类的准确性也是关键挑战，需依赖MinHash文档级去重技术和行业分类语言模型（准确率80%）来实现。最后，如何平衡数据规模与质量，确保数据集在行业模型训练中的实际效果，仍需进一步优化和验证。

常用场景

经典使用场景

IndustryCorpus_politics数据集在政治领域的文本生成任务中展现了其独特的价值。该数据集通过高质量的中英文政治文本，为研究者提供了丰富的语料资源，特别适用于训练和优化政治领域的自然语言处理模型。通过该数据集，研究者能够生成更加精准和符合政治语境的语言模型，从而在政治文本分析、政策解读等领域取得显著进展。

实际应用

在实际应用中，IndustryCorpus_politics数据集被广泛用于政治新闻自动生成、政策文件分析、政治舆情监测等场景。通过该数据集训练的模型能够更准确地理解和生成政治文本，帮助政府机构、新闻媒体和研究机构快速获取和分析政治信息，提升决策效率和舆情应对能力。

衍生相关工作

基于IndustryCorpus_politics数据集，研究者们开发了多个经典的自然语言处理模型和应用。例如，一些研究利用该数据集训练了专门用于政治文本生成的GPT模型，显著提升了生成文本的准确性和流畅性。此外，该数据集还被用于政治情感分析、政策文本分类等任务，推动了政治领域自然语言处理技术的创新和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集