IndustryCorpus_travel

Name: IndustryCorpus_travel
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-07-26 10:30:41
License: 暂无描述

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus_travel

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了改善行业模型性能而构建的，包含3.4TB的高质量多行业分类中英文预训练数据，其中1TB为中文数据，2.4TB为英文数据。数据集通过22个行业数据处理操作符从超过100TB的开放源数据集中筛选而来，并进行了12种类型的标签标注，包括字母数字比、平均行长度、语言置信度分数等。数据集涵盖18个行业类别，并进行了基于规则和模型的过滤以及文档级别的去重。通过在医疗行业示范模型上的训练，验证了数据集的性能，显示了20%的客观性能提升和82%的主观胜率。

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-07-25

原始信息汇总

数据集概述

数据集描述

该数据集是通过应用22种行业数据处理操作符，从超过100TB的开放源数据集中筛选出的高质量多行业分类中英文预训练数据集。原始数据包括WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等。筛选后的数据包含1TB的中文数据和2.4TB的英文数据。

数据集规模

总数据量：3.4TB
中文数据量：1TB
英文数据量：2.4TB

行业分类

数据集涵盖18个行业类别，包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等。

数据处理

规则基础过滤：包括繁体中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等。
模型基础过滤：使用行业分类语言模型，准确率80%。
数据去重：采用MinHash文档级去重。

数据标注

中文数据被标注了12种类型的标签，包括字母数字比、平均行长度、语言置信度分数、最大行长度和困惑度等。

数据集验证

通过在医疗行业示范模型上进行连续预训练、SFT和DPO训练，结果显示客观性能提升20%，主观胜率82%。

行业分类数据规模

行业类别	数据规模 (GB)	行业类别	数据规模 (GB)
编程	4.1	政治	326.4
法律	274.6	数学	5.9
教育	458.1	体育	442
金融	197.8	文学	179.3
计算机科学	46.9	新闻	564.1
技术	333.6	电影与电视	162.1
旅游	82.5	医学	189.4
农业	41.6	汽车	40.8
情感	31.7	人工智能	5.6
总计 (GB)	3386.5

数据集分割

为了方便用户下载和使用，该大型数据集被分割成18个行业的子数据集。当前数据集是旅游行业的子数据集。

搜集汇总

数据集介绍

构建方式

IndustryCorpus_travel数据集的构建基于对超过100TB的开源数据集进行深度清洗与筛选，包括WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等。通过应用22种行业数据处理算子，最终从海量数据中提取出3.4TB的高质量多行业分类中英文预训练数据。其中，中文数据经过12种标签的标注，涵盖了字母数字比例、平均行长度、语言置信度评分等关键指标，确保了数据的多样性与专业性。

特点

该数据集的特点在于其高度的行业分类与数据质量。数据集涵盖了18个行业类别，包括医疗、教育、文学、金融、旅游等，每个类别均经过严格的规则与模型过滤，确保数据的准确性与实用性。中文数据部分特别标注了多种语言特征指标，如语言置信度评分与困惑度，为模型训练提供了丰富的上下文信息。此外，数据集通过MinHash文档级去重技术，进一步提升了数据的纯净度。

使用方法

IndustryCorpus_travel数据集的使用方法灵活多样，适用于多种自然语言处理任务，尤其是文本生成与行业模型训练。用户可根据需求选择特定行业子数据集进行下载与使用。数据集已按行业分类拆分为18个子集，便于针对性研究与应用。在使用过程中，建议结合数据标注信息进行模型优化，例如利用语言置信度评分筛选高质量数据，或通过困惑度指标评估模型性能。此外，数据集的预处理流程清晰，用户可参考提供的流程图进行高效的数据加载与处理。

背景与挑战

背景概述

IndustryCorpus_travel数据集是近年来为支持行业模型训练而构建的高质量多行业分类数据集之一。该数据集由多个开源数据集（如WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B）经过严格清洗和过滤后生成，涵盖了18个行业类别，包括医疗、教育、文学、金融、旅游等。数据集创建的主要目的是解决当前行业模型训练中数据量不足、质量低下以及缺乏领域专业知识的问题。通过应用22种行业数据处理操作符，研究人员从超过100TB的原始数据中筛选出3.4TB的高质量中英文预训练数据，其中中文数据1TB，英文数据2.4TB。该数据集在医疗行业示范模型上的实验表明，其能够显著提升模型性能，客观性能提升20%，主观胜率达到82%。

当前挑战

IndustryCorpus_travel数据集在构建和应用过程中面临多重挑战。首先，数据清洗和过滤的复杂性极高，需处理传统中文转换、电子邮件删除、IP地址移除、链接移除、Unicode修复等多种规则性操作，同时还需基于行业分类语言模型进行模型过滤，确保数据质量。其次，数据去重和标注工作也极具挑战，尤其是中文数据的12种标签标注，需确保数据的多样性和代表性。此外，数据集的行业分类和规模分配需平衡各行业的数据需求，避免某些行业数据过少或过多，影响模型的泛化能力。最后，如何将大规模数据集高效地分割为子数据集，并确保用户能够便捷地下载和使用，也是数据集构建中的一大挑战。

常用场景

经典使用场景

在旅游行业的自然语言处理研究中，IndustryCorpus_travel数据集被广泛应用于文本生成任务。该数据集包含了大量高质量的旅游相关文本，涵盖了从旅游指南到用户评论的多种文本类型。研究人员利用这些数据训练和优化模型，以生成更加准确和自然的旅游相关内容，如自动生成旅游攻略、推荐系统等。

衍生相关工作

基于IndustryCorpus_travel数据集，研究人员开发了一系列经典的旅游领域自然语言处理模型。这些模型在旅游文本生成、情感分析和用户行为预测等任务中表现出色。例如，某研究团队利用该数据集训练了一个多语言旅游文本生成模型，能够根据用户输入自动生成多语言的旅游指南，极大地提升了旅游信息的传播效率和用户体验。

数据集最近研究