IndustryCorpus_emotion

Name: IndustryCorpus_emotion
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-07-26 10:30:43
License: 暂无描述

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus_emotion

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了改善行业模型性能和实现行业应用而构建的，通过筛选和处理3.4TB的高质量多行业分类中英文预训练数据，包括1TB中文和2.4TB英文数据。数据集涵盖18个行业类别，并进行了详细的标签标注和性能验证，以确保数据的质量和实用性。

This dataset is constructed to improve the performance of industry-specific models and enable their industrial applications. It is built by filtering and processing 3.4 TB of high-quality, industry-classified multilingual pre-training data in both Chinese and English, which consists of 1 TB of Chinese data and 2.4 TB of English data. The dataset covers 18 industry categories, with detailed label annotations and performance validation conducted to ensure its data quality and practicality.

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-07-25

原始信息汇总

数据集概述

数据集描述

语言: 中文和英文
数据规模: 1TB 中文数据, 2.4TB 英文数据
任务类别: 文本生成
行业分类: 18个行业类别，包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等

数据处理

数据来源: 从超过100TB的开放源数据集中筛选，包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
数据清洗: 应用22个行业数据处理操作符进行清洗和过滤
数据标注: 对中文数据进行12种类型的标注，包括字母数字比、平均行长度、语言置信度分数、最大行长度和困惑度等
数据去重: 使用MinHash文档级去重
模型过滤: 使用行业分类语言模型，准确率80%

数据集细分

行业分类数据规模:

行业类别	数据规模 (GB)	行业类别	数据规模 (GB)
编程	4.1	政治	326.4
法律	274.6	数学	5.9
教育	458.1	体育	442
金融	197.8	文学	179.3
计算机科学	46.9	新闻	564.1
技术	333.6	影视	162.1
旅游	82.5	医疗	189.4
农业	41.6	汽车	40.8
情感	31.7	人工智能	5.6
总计 (GB)	3386.5

数据集验证

模型训练: 进行持续预训练、SFT和DPO训练
性能提升: 客观性能提升20%，主观胜率82%

数据集使用

数据分割: 将大型数据集分割成18个行业的子数据集，当前为情感行业子数据集

搜集汇总

数据集介绍

构建方式

IndustryCorpus_emotion数据集的构建基于对超过100TB开源数据集的深度处理，包括WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等。通过应用22种行业数据处理算子，对原始数据进行清洗和过滤，最终从3.4TB高质量多行业分类的中英文预训练数据中提取出1TB中文数据和2.4TB英文数据。中文数据进一步标注了12种标签，如字母数字比例、平均行长度、语言置信度分数等，以确保数据的质量和适用性。

特点

该数据集涵盖了18个行业类别，包括医疗、教育、文学、金融等，特别关注情感行业的数据。数据集通过规则和模型双重过滤，确保数据的专业性和准确性。中文数据经过详细的标注和去重处理，提供了丰富的信息维度，如语言置信度、毒性字符比例等，为行业模型的训练提供了坚实的基础。

使用方法

用户可以通过HuggingFace平台下载该数据集，数据集已被细分为18个行业的子数据集，便于针对特定行业的研究和应用。数据集适用于文本生成任务，用户可以直接用于模型的预训练、微调或特定任务的训练。此外，数据集的详细标注和分类信息为模型的性能验证和优化提供了便利。

背景与挑战

背景概述

IndustryCorpus_emotion数据集是面向行业模型训练的高质量多行业分类数据集，旨在解决当前行业模型训练中数据量不足、质量低下及缺乏领域专业知识的问题。该数据集由多个开源数据集（如WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B）经过22种行业数据处理操作符的清洗和过滤后构建而成，涵盖了医疗、教育、金融、法律等18个行业类别。数据集包含1TB中文数据和2.4TB英文数据，并针对中文数据标注了12种标签，如字母数字比例、平均行长度、语言置信度等。通过持续预训练、SFT和DPO训练，该数据集在医疗行业示范模型上表现出色，客观性能提升20%，主观胜率达82%。

当前挑战

IndustryCorpus_emotion数据集在构建和应用过程中面临多重挑战。首先，行业模型训练对数据质量和领域专业性要求极高，而现有开源数据集普遍存在噪声多、领域覆盖不均等问题，如何高效清洗和过滤数据成为关键挑战。其次，数据标注和分类需要高精度模型支持，尽管采用了行业分类语言模型，但其80%的准确率仍需进一步提升。此外，数据去重和格式统一化处理也增加了构建复杂度。最后，如何确保数据集在不同行业模型中的泛化能力，以及如何平衡数据规模与计算资源消耗，也是实际应用中亟待解决的问题。

常用场景

经典使用场景

在情感分析领域，IndustryCorpus_emotion数据集被广泛应用于训练和评估情感识别模型。该数据集通过提供大量标注的中文和英文文本，帮助研究人员构建能够准确识别和分类用户情感的算法。特别是在社交媒体、客户反馈和在线评论等场景中，该数据集的应用显著提升了情感分析的准确性和鲁棒性。

衍生相关工作

基于IndustryCorpus_emotion数据集，研究人员开发了多种情感分析模型和算法。例如，一些研究利用该数据集构建了基于深度学习的情感分类器，显著提升了情感识别的准确率。此外，该数据集还催生了跨语言情感分析的研究，推动了多语言情感识别技术的发展。这些工作不仅丰富了情感分析领域的研究成果，还为实际应用提供了强有力的技术支持。

数据集最近研究