IndustryCorpus_sports

Name: IndustryCorpus_sports
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-07-26 10:30:45
License: 暂无描述

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus_sports

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过应用22个行业数据处理操作符，从超过100TB的开放源数据集中筛选出的3.4TB高质量多行业分类的中英文预训练数据集。数据包括1TB的中文数据和2.4TB的英文数据，并进行了12种类型的标签标注，涵盖18个行业类别，如医疗、教育、文学、金融等。数据集还进行了基于规则和模型的过滤以及文档级别的去重处理，以提高数据质量和模型性能。

This 3.4 TB high-quality multi-industry classified Chinese-English pre-training dataset is filtered from over 100 TB of open-source datasets via 22 industry-specific data processing operators. It contains 1 TB of Chinese data and 2.4 TB of English data, and has been annotated with 12 types of labels covering 18 industry categories such as healthcare, education, literature, finance and more. Additionally, the dataset has undergone rule-based and model-based filtering as well as document-level deduplication to improve data quality and model performance.

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-07-25

原始信息汇总

数据集概述

基本信息

许可证：Apache-2.0
语言：中文、英文
数据量：超过1TB
任务类别：文本生成

数据集构建

原始数据来源：包括WuDaoCorpora、BAAI-CCI、redpajama、SkyPile-150B等超过100TB的开放源数据集。
处理方法：应用22个行业数据处理操作符，筛选出3.4TB的高质量多行业分类中英文预训练数据集。
数据细分：包含1TB中文数据和2.4TB英文数据。

数据标注

中文数据标注：包含12种标签，如字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度等。

数据验证

模型训练：在医疗行业示范模型上进行了持续预训练、SFT和DPO训练。
性能提升：客观性能提升20%，主观胜率82%。

行业分类

行业类别：包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等18个类别。
数据大小：总数据量为3386.5GB，具体行业数据大小如下表所示。

数据处理

基于规则的过滤：如繁体中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等。
基于模型的过滤：行业分类语言模型，准确率80%。
数据去重：MinHash文档级去重。

数据细分

体育行业子数据集：为方便用户下载和使用，将大数据集分割为18个行业的子数据集，当前为体育行业子数据集。

行业分类数据大小

行业类别	数据大小 (GB)	行业类别	数据大小 (GB)
编程	4.1	政治	326.4
法律	274.6	数学	5.9
教育	458.1	体育	442
金融	197.8	文学	179.3
计算机科学	46.9	新闻	564.1
技术	333.6	影视	162.1
旅游	82.5	医学	189.4
农业	41.6	汽车	40.8
情感	31.7	人工智能	5.6
总计 (GB)	3386.5

搜集汇总

数据集介绍

构建方式

IndustryCorpus_sports数据集的构建过程体现了对高质量行业数据的追求。该数据集通过应用22种行业数据处理算子，从超过100TB的开源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据。具体而言，数据集涵盖了18个行业类别，包括医疗、教育、文学、金融、旅游、法律、体育等。数据处理过程中，采用了基于规则的过滤方法，如繁体中文转换、电子邮件移除、IP地址移除等，以及基于模型的过滤方法，如行业分类语言模型，确保了数据的准确性和专业性。此外，还进行了数据去重处理，使用MinHash方法进行文档级去重，最终形成了1TB的中文数据和2.4TB的英文数据。

特点

IndustryCorpus_sports数据集的特点在于其高质量和多样性。数据集不仅包含了大量的中英文文本数据，还针对中文数据进行了详细的标注，包括字母数字比例、平均行长度、语言置信度分数、最大行长度和困惑度等12种标签。这些标注为模型训练提供了丰富的信息，有助于提升模型的性能。此外，数据集涵盖了18个不同的行业类别，每个类别的数据量均经过精心筛选和平衡，确保了数据的广泛性和代表性。通过这种多样化的数据分布，数据集能够支持多种行业应用场景，满足不同领域的研究需求。

使用方法

IndustryCorpus_sports数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可以根据需求选择下载整个数据集或特定行业的子数据集。数据集特别适用于文本生成任务，用户可以通过继续预训练、SFT（监督微调）和DPO（数据并行优化）等方法对模型进行训练和优化。在实际应用中，数据集已被用于医疗行业示范模型的训练，结果显示其客观性能提升了20%，主观胜率达到了82%。此外，数据集的中文标注信息为模型训练提供了额外的参考，用户可以根据这些标注信息进一步优化模型的训练过程，提升模型在特定行业领域的表现。

背景与挑战

背景概述

IndustryCorpus_sports数据集是在推动企业智能化转型和创新发展的背景下创建的，旨在解决行业模型训练中数据量不足、质量不高以及缺乏领域专业知识的问题。该数据集由多个开源数据集（如WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B）经过清洗和过滤后构建而成，涵盖了18个行业类别，包括医疗、教育、文学、金融、旅游、法律、体育等。数据集包含1TB的中文数据和2.4TB的英文数据，并通过12种标签对中文数据进行了标注，如字母数字比例、平均行长度、语言置信度分数等。该数据集的构建和应用显著提升了行业模型的性能，特别是在医疗行业示范模型上的实验结果显示，客观性能提升了20%，主观胜率达到82%。

当前挑战

IndustryCorpus_sports数据集在构建和应用过程中面临多重挑战。首先，数据清洗和过滤的复杂性较高，需应用22种行业数据处理算子，以确保数据的质量和领域相关性。其次，数据标注的准确性要求极高，特别是在中文数据的标注过程中，需确保标签如字母数字比例、语言置信度分数等的精确性。此外，数据去重和行业分类的准确性也是关键挑战，需通过MinHash文档级去重和准确率为80%的行业分类语言模型来实现。最后，数据集的规模庞大，如何高效地存储、管理和分发这些数据，也是实际应用中需要解决的问题。

常用场景

经典使用场景

在体育行业，IndustryCorpus_sports数据集被广泛应用于文本生成任务，特别是在体育新闻撰写、赛事报道和运动员传记等领域。通过该数据集，研究人员和开发者能够训练出高质量的文本生成模型，从而自动生成符合体育行业标准的文本内容。

实际应用

在实际应用中，IndustryCorpus_sports数据集被用于开发智能体育新闻生成系统、自动化赛事报道工具和运动员数据分析平台。这些应用不仅提高了体育行业的工作效率，还为体育爱好者提供了更加丰富和及时的信息。

衍生相关工作

基于IndustryCorpus_sports数据集，研究人员开发了多种体育行业相关的文本生成模型和工具。例如，某研究团队利用该数据集训练了一个智能体育新闻生成系统，该系统能够自动生成高质量的体育新闻报道，并在多个体育赛事中得到了广泛应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集