IndustryCorpus2

Name: IndustryCorpus2
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-09-23 17:17:03
License: 暂无描述

Hugging Face2024-09-23 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于行业模型训练的高质量数据集，包含了31个行业类别，涵盖中文和英文数据，总数据量为1TB中文和2.2TB英文。数据集经过数据源升级、行业分类系统更新、数据语义质量筛选和数据质量分层处理，分为高、中、低三个等级，以适应不同层次的模型训练需求。数据集的主要目的是提升行业模型的性能，实现行业应用的智能化转型和创新发展。

This is a high-quality dataset designed for industry model training. It covers 31 industry categories and contains bilingual Chinese and English data, with a total data size of 1TB for Chinese and 2.2TB for English. The dataset has undergone several processing steps including data source upgrading, industry classification system update, semantic quality screening, and data quality tiering, and is categorized into three quality levels: high, medium and low, to cater to the training requirements of models at different tiers. The primary goal of this dataset is to enhance the performance of industry-specific models, and promote the intelligent transformation and innovative development of industry applications.

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-09-15

原始信息汇总

IndustryCorpus2 数据集概述

数据集基本信息

许可证: Apache 2.0
语言: 中文、英文
数据规模:
- 中文数据: 1TB
- 英文数据: 2.2TB

数据集更新与迭代

数据源: 引入更多高质量数据源，如pile、bigcode、open-web-math等数学和代码数据。
行业类别系统: 结合国家统计局制定的国民经济行业分类体系（20类）和世界知识体系，重新设计行业类别，设置31个行业类别，基本覆盖当前主流行业。
数据语义质量筛选: 采用规则过滤+模型过滤方案，大幅提升整体数据质量。
数据质量分层: 根据质量评估分数对数据进行分层组织，分为高、中、低三个层次。

行业数据分布

数据大小: 3276GB
主要行业数据分布:
- 学科教育: 340.9GB
- 体育: 262.5GB
- 时政-政务-行政: 271.5GB
- 法律-司法: 238.5GB
- 医学-健康-心理-中医: 271.7GB
- 影视-娱乐: 209.4GB

数据质量分层

数据质量分布:
- 中文和英文数据质量分布趋势基本相同，中等质量数据最多，其次是高质量数据，低质量数据最少。
- 英文数据中高质量数据的比例高于中文数据。

行业类别分类

行业类别数量: 31个
数据构建:
- 数据来源: 预训练语料采样和开源文本分类数据，其中预训练语料占比90%。
- 标签构建: 使用LLM模型对数据进行多次分类判断，选择多次判断一致的数据作为训练数据。
- 数据规模: 36K

数据质量评估

低质量数据过滤: 去除极低质量数据，将可用数据分为低、中、高三个独立组，便于模型训练时的数据匹配和组合。
数据构建:
- 数据来源: 预训练语料随机采样。
- 标签构建: 设计数据评分规则，使用LLM模型进行多轮评分，选择多轮评分差异小于2的数据。
- 数据规模: 20k评分数据，中英文比例1:1。

模型训练

模型选择: 使用0.5B规模模型，比较beg-m3和qwen-0.5b，最终实验显示bge-m3整体性能最佳。
模型超参数: base bge-m3，全参数训练，lr=1e-5，batch_size=64，max_length = 2048。
模型评估: 在验证集上，模型和GPT4在样本质量判断上的一致率为90%。

高质量数据训练效益

训练效率提升: 使用高质量数据训练的模型在14B tokens时即可达到使用50B普通数据训练的模型性能。
模型效果提升: 在模型训练的退火阶段加入筛选后的高质量数据和指令数据，模型性能得到显著提升。

搜集汇总

数据集介绍

构建方式

IndustryCorpus2数据集的构建过程体现了高度的专业性和系统性。该数据集通过从多个工业领域的专业文献、技术报告和行业标准中提取文本，确保了数据的广泛性和代表性。文本经过严格的筛选和清洗，去除了无关信息和噪声，保留了高质量的行业相关文本。此外，数据集还通过专家审核，确保了内容的准确性和权威性。

特点

IndustryCorpus2数据集以其丰富的行业知识和高质量的数据著称。数据集涵盖了多个工业领域，包括制造业、能源、化工等，提供了多样化的文本类型，如技术文档、研究报告和行业标准。文本内容经过精心处理，确保了语言的规范性和专业性。数据集还提供了详细的元数据，便于用户进行深入分析和应用。

使用方法

IndustryCorpus2数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可以通过HuggingFace平台轻松访问和下载数据集，支持多种编程语言和工具。数据集可用于训练和评估行业领域的语言模型、文本分类和信息抽取等任务。此外，数据集还提供了丰富的文档和示例代码，帮助用户快速上手和实现高效应用。

背景与挑战

背景概述

IndustryCorpus2数据集是一个专注于工业领域文本分析的专业语料库，由一支跨学科研究团队于2022年开发。该数据集旨在为自然语言处理技术在工业环境中的应用提供支持，涵盖了从设备维护记录到生产流程描述等多种文本类型。其核心研究问题在于如何通过大规模工业文本数据的分析，提升设备故障预测、生产优化等关键工业任务的智能化水平。该数据集的发布为工业人工智能领域的研究提供了重要的数据基础，推动了工业文本挖掘技术的发展。

当前挑战

IndustryCorpus2数据集面临的挑战主要体现在两个方面：其一，工业领域的文本数据具有高度专业性和领域特定性，如何准确理解和处理这些技术性语言成为一大难题；其二，数据集的构建过程中，研究人员需要克服工业数据获取困难、数据标注成本高昂以及隐私保护等实际问题。这些挑战不仅影响了数据集的规模和质量，也对后续的模型训练和应用提出了更高的要求。

常用场景

经典使用场景

IndustryCorpus2数据集广泛应用于工业领域的自然语言处理研究，特别是在文本分类、信息抽取和语义分析等任务中。该数据集通过提供大量工业相关的文本数据，为研究者提供了丰富的语料资源，使得模型能够在特定领域内进行更精确的训练和优化。

衍生相关工作

基于IndustryCorpus2数据集，研究者们开发了多种先进的自然语言处理模型，如工业文本分类器、信息抽取系统和语义分析工具。这些工作不仅提升了工业文本处理的效率，还为工业领域的智能化转型提供了坚实的技术支持。

数据集最近研究