IndustryCorpus_news

Name: IndustryCorpus_news
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-07-26 10:30:34
License: 暂无描述

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus_news

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个高质量的多行业分类中英文预训练数据集，通过应用22个行业数据处理操作符，从超过100TB的开放源数据集中筛选出3.4TB的高质量数据。数据集包括1TB的中文数据和2.4TB的英文数据，涵盖18个行业类别，并进行了详细的标注和过滤，以提高数据质量和适用性。数据集的性能通过模型训练得到验证，显示了显著的改进。

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-07-25

原始信息汇总

数据集概述

数据集描述

语言: 中文和英文
数据量: 1TB中文数据，2.4TB英文数据
任务类别: 文本生成
行业分类: 18个行业类别，包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等

数据处理

数据来源: 从超过100TB的开放源数据集中筛选，包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
数据处理操作: 22个行业数据处理操作符，用于清洗和过滤
规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
模型过滤: 行业分类语言模型，准确率80%
数据去重: MinHash文档级去重

数据标注

中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签

数据集大小

行业分类数据大小:

| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) | | :-------------------:|:----------------:|:-------------------:|:----------------:|| 编程 | 4.1 | 政治 | 326.4 | | 法律 | 274.6 | 数学 | 5.9 | | 教育 | 458.1 | 体育 | 442 | | 金融 | 197.8 | 文学 | 179.3 | | 计算机科学 | 46.9 | 新闻 | 564.1 | | 技术 | 333.6 | 影视 | 162.1 | | 旅游 | 82.5 | 医学 | 189.4 | | 农业 | 41.6 | 汽车 | 40.8 | | 情感 | 31.7 | 人工智能 | 5.6 | | 总计 (GB) | 3386.5 | | |

数据集使用

数据集分割: 将大型数据集分割成18个行业的子数据集，当前为新闻行业子数据集

搜集汇总

数据集介绍

构建方式

IndustryCorpus_news数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中，通过22种行业数据处理算子，清洗和筛选出3.4TB的多行业分类中英文预训练数据。具体而言，1TB的中文数据和2.4TB的英文数据经过规则过滤和模型过滤，确保了数据的纯净度和专业性。中文数据还额外标注了12种标签，如字母数字比例、平均行长度等，以提升数据的可用性。

特点

IndustryCorpus_news数据集以其广泛的行业覆盖和高质量的数据标注脱颖而出。该数据集涵盖18个行业类别，包括医疗、教育、新闻等，每个类别的数据量均经过精确统计。中文数据通过多种标签进行标注，如语言置信度得分、困惑度等，为模型训练提供了丰富的特征信息。此外，数据经过严格的去重和过滤处理，确保了数据的唯一性和专业性，为行业模型的训练提供了坚实的基础。

使用方法

IndustryCorpus_news数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可以根据需求下载特定行业的子数据集，如新闻行业子集。数据集的中文标注信息为模型训练提供了额外的特征维度，可用于提升模型的性能。此外，数据集的分割设计便于用户按需加载和处理，降低了计算资源的消耗。通过该数据集，用户能够高效地进行行业模型的预训练、微调和优化，推动行业智能化应用的落地。

背景与挑战

背景概述

IndustryCorpus_news数据集是为解决行业模型训练中数据质量不足、领域专业知识匮乏等问题而构建的高质量多行业分类预训练数据集。该数据集由多个开源数据集（如WuDaoCorpora、BAAI-CCI等）经过22种行业数据处理操作符的清洗与过滤，最终筛选出3.4TB的中英文数据，其中中文数据1TB，英文数据2.4TB。数据集涵盖了医疗、教育、金融、新闻等18个行业类别，并通过标注12种标签（如字母数字比例、语言置信度等）进一步提升了数据的可用性。该数据集的构建旨在推动企业智能化转型与创新发展，已在医疗行业示范模型中验证了其性能提升效果。

当前挑战

IndustryCorpus_news数据集在构建过程中面临多重挑战。首先，原始数据来源广泛且质量参差不齐，需通过复杂的规则过滤与模型筛选确保数据的高质量与领域相关性。其次，数据清洗过程中需处理多种噪声，如繁体中文转换、电子邮件与链接移除等，这对数据处理技术的精度与效率提出了较高要求。此外，数据去重与行业分类的准确性也是关键挑战，需依赖高效的算法与高精度的分类模型。最后，如何平衡数据规模与质量，确保其在行业模型训练中的实际效果，仍需进一步优化与验证。

常用场景

经典使用场景

在自然语言处理领域，IndustryCorpus_news数据集被广泛应用于新闻行业的文本生成任务。该数据集通过提供高质量的新闻文本数据，支持模型在新闻摘要生成、新闻分类以及新闻内容推荐等任务中的训练与优化。其多语言特性（中文和英文）使得该数据集在全球范围内的新闻行业应用中具有广泛的适用性。

实际应用

在实际应用中，IndustryCorpus_news数据集被用于构建智能新闻推荐系统、自动化新闻摘要生成工具以及新闻内容分类引擎。例如，新闻机构可以利用该数据集训练模型，自动生成新闻摘要，提升内容生产效率；同时，基于该数据集的推荐系统能够为用户提供个性化的新闻推送服务，增强用户体验。

衍生相关工作

基于IndustryCorpus_news数据集，研究者们开发了一系列经典的自然语言处理模型和应用。例如，新闻摘要生成模型NewsSum和新闻分类系统NewsClassify均采用了该数据集进行训练。此外，该数据集还被用于新闻情感分析、新闻事件检测等任务，推动了新闻行业智能化应用的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集