IndustryCorpus_automobile

Name: IndustryCorpus_automobile
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-07-26 10:30:49
License: 暂无描述

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus_automobile

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了解决行业模型训练数据集存在的问题而构建的，包括数据量不足、质量低和缺乏领域专业性。通过应用22个行业数据处理操作符，从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据集。筛选后的数据包括1TB的中文数据和2.4TB的英文数据，并对中文数据进行了12种类型的标签标注。数据集涵盖18个行业类别，包括医疗、教育、文学、金融等，并进行了基于规则和模型的过滤以及文档级别的去重。数据集被分割成18个行业的子数据集，当前描述的是汽车行业的子数据集。

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-07-25

原始信息汇总

数据集概述

数据集描述

语言: 中文和英文
数据大小: 1TB中文数据，2.4TB英文数据
任务类别: 文本生成
行业分类: 18个行业类别，包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等

数据处理

数据来源: 从超过100TB的开放源数据集中筛选，包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
模型过滤: 使用行业分类语言模型，准确率80%
数据去重: 使用MinHash文档级去重

数据标注

中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签

数据集性能验证

模型训练: 进行了持续预训练、SFT和DPO训练
性能提升: 目标性能提升20%，主观胜率82%

行业分类数据大小

行业类别	数据大小 (GB)	行业类别	数据大小 (GB)
编程	4.1	政治	326.4
法律	274.6	数学	5.9
教育	458.1	体育	442
金融	197.8	文学	179.3
计算机科学	46.9	新闻	564.1
技术	333.6	影视	162.1
旅游	82.5	医学	189.4
农业	41.6	汽车	40.8
情感	31.7	人工智能	5.6
总计 (GB)	3386.5

数据集分割

分割方式: 将大数据集分割成18个行业的子数据集，当前为汽车行业子数据集

搜集汇总

数据集介绍

构建方式

IndustryCorpus_automobile数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中，通过22种行业数据处理算子，清洗和过滤出3.4TB的高质量多行业分类中英文预训练数据。具体而言，中文数据经过12种标签的标注，包括字母数字比例、平均行长度、语言置信度评分等，以确保数据的多样性和专业性。此外，数据集还采用了基于模型的过滤和文档级去重技术，进一步提升了数据的精确性和实用性。

使用方法

IndustryCorpus_automobile数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可以根据需求选择下载特定行业的子数据集，如汽车行业数据。数据集的中文部分提供了详细的标注信息，用户可以直接利用这些标注进行模型训练或评估。此外，数据集还支持继续预训练、SFT和DPO训练等多种训练方式，用户可以根据具体任务需求选择合适的训练策略。通过这种方式，数据集能够有效提升模型在特定行业领域的表现。

背景与挑战

背景概述

IndustryCorpus_automobile数据集是在企业智能化转型和创新发展的背景下应运而生的。随着大模型在各行各业的应用日益广泛，高质量行业数据的需求变得尤为迫切。然而，现有的行业模型训练数据集普遍存在数据量不足、质量低下以及缺乏领域专业知识等问题。为此，研究人员从超过100TB的开源数据集中筛选并构建了3.4TB的高质量多行业分类中英文预训练数据集，其中包括1TB中文数据和2.4TB英文数据。该数据集涵盖了18个行业类别，并通过22种数据处理算子进行清洗和过滤，旨在提升大模型在行业应用中的性能。

当前挑战

IndustryCorpus_automobile数据集在构建过程中面临多重挑战。首先，行业数据的多样性和复杂性使得数据清洗和过滤变得极为困难，需通过传统中文转换、邮件移除、链接移除等多种规则化处理手段确保数据质量。其次，数据标注的准确性直接影响模型训练效果，为此研究人员为中文数据标注了12种标签，包括字母数字比例、平均行长度、语言置信度等。此外，数据去重和行业分类模型的构建也需耗费大量计算资源，以确保数据的唯一性和行业相关性。这些挑战的解决为行业模型的性能提升奠定了坚实基础。

常用场景

经典使用场景

在汽车行业，IndustryCorpus_automobile数据集被广泛应用于自然语言处理模型的训练与优化。该数据集通过提供大量高质量的汽车领域文本数据，支持文本生成、语义理解等任务的模型训练。特别是在汽车技术文档生成、用户评论分析、市场趋势预测等场景中，该数据集为模型提供了丰富的行业知识，显著提升了模型的准确性和实用性。

解决学术问题

IndustryCorpus_automobile数据集解决了汽车领域文本数据稀缺、质量参差不齐的学术研究问题。通过严格的清洗和标注流程，该数据集提供了高信噪比的文本资源，为研究人员在汽车行业自然语言处理任务中提供了可靠的数据支持。其多维度标注信息（如语言置信度、困惑度等）进一步推动了模型性能评估和优化的研究进展。

实际应用

在实际应用中，IndustryCorpus_automobile数据集为汽车行业的技术文档自动化生成、智能客服系统、市场分析报告等场景提供了强大的数据支撑。例如，基于该数据集训练的模型能够自动生成符合行业标准的维修手册，或从用户评论中提取有价值的产品改进建议，显著提升了企业的运营效率和客户满意度。

数据集最近研究