IndustryCorpus_finance

Name: IndustryCorpus_finance
Creator: Beijing Academy of Artificial Intelligence
Published: 2024-07-26 10:30:38
License: 暂无描述

Hugging Face2024-07-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/BAAI/IndustryCorpus_finance

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为了改进行业模型性能而构建的，包含1TB中文和2.4TB英文的高质量多行业分类预训练数据。数据集通过22个行业数据处理操作符从100TB开放源数据中筛选出，并进行了12种类型的中文数据标注。数据集涵盖18个行业类别，包括医学、教育、文学、金融等，并进行了基于规则和模型的过滤以及文档级数据去重。此外，通过医学行业示范模型的训练验证，数据集性能有显著提升。

This dataset is developed to improve the performance of industry-specific models. It includes 1 TB of high-quality Chinese and 2.4 TB of English pre-training data for multi-industry classification. The dataset is screened from 100 TB of open-source data using 22 industry-specific data processing operators, and subjected to 12 types of annotations on Chinese data. It covers 18 industry categories such as medicine, education, literature, finance and others, and has undergone rule-based and model-based filtering as well as document-level data deduplication. Furthermore, training and validation with a medical industry demonstration model have verified that this dataset enables significant performance improvements.

提供机构：

Beijing Academy of Artificial Intelligence

创建时间：

2024-07-25

原始信息汇总

数据集概述

数据集描述

语言: 中文和英文
数据量: 1TB中文数据，2.4TB英文数据
任务类别: 文本生成
行业分类: 18个行业类别，包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等

数据处理

数据来源: 从超过100TB的开放源数据集中筛选，包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
模型过滤: 使用行业分类语言模型，准确率80%
数据去重: 使用MinHash文档级去重

数据标注

中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签

数据集大小

行业分类数据大小:

| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) | | :-------------------:|:----------------:|:-------------------:|:----------------:|| 编程 | 4.1 | 政治 | 326.4 || 法律 | 274.6 | 数学 | 5.9 || 教育 | 458.1 | 体育 | 442 || 金融 | 197.8 | 文学 | 179.3 || 计算机科学 | 46.9 | 新闻 | 564.1 || 技术 | 333.6 | 影视 | 162.1 || 旅游 | 82.5 | 医学 | 189.4 || 农业 | 41.6 | 汽车 | 40.8 || 情感 | 31.7 | 人工智能 | 5.6 || 总计 (GB) | 3386.5 | | |

数据集验证

模型训练: 进行了持续预训练、SFT和DPO训练
性能提升: 客观性能提升20%，主观胜率82%

数据集分割

分割方式: 将大数据集分割成18个行业的子数据集，当前为金融行业子数据集

搜集汇总

数据集介绍

构建方式

IndustryCorpus_finance数据集的构建基于对超过100TB开源数据集（如WuDaoCorpora、BAAI-CCI等）的深度处理。通过应用22种行业数据处理算子，对原始数据进行清洗与过滤，最终从海量数据中提取出3.4TB高质量的多行业分类中英文预训练数据。其中，中文数据占比1TB，英文数据占比2.4TB。为确保数据质量，中文数据进一步标注了12种标签，涵盖字母数字比例、平均行长度、语言置信度等关键指标。此外，采用MinHash技术进行文档级去重，并通过行业分类语言模型进行基于模型的过滤，确保数据的专业性与多样性。

特点

IndustryCorpus_finance数据集以其高质量与行业专业性著称。数据集涵盖18个行业类别，包括金融、医疗、教育等，其中金融行业子集数据量达197.8GB。中文数据经过多维度标注，包括字母数字比例、语言置信度等，为模型训练提供了丰富的特征信息。此外，数据集通过规则与模型双重过滤，确保数据的纯净性与行业相关性。实验表明，基于该数据集训练的模型在客观性能上提升了20%，主观胜率高达82%，充分验证了其在实际应用中的优越性。

使用方法

IndustryCorpus_finance数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可根据需求下载特定行业的子数据集，如金融行业子集。数据集支持继续预训练、监督微调（SFT）以及直接偏好优化（DPO）等多种训练方式。为便于使用，数据集已按行业分类拆分，用户可直接加载所需数据。此外，数据集提供详细的标注信息，用户可基于这些特征进行定制化模型训练与评估。通过结合行业分类语言模型，用户还可进一步优化数据筛选与处理流程，提升模型在特定领域的表现。

背景与挑战

背景概述

IndustryCorpus_finance数据集是面向金融行业的预训练数据集，旨在为行业模型提供高质量的多语言数据支持。该数据集由多个开源数据集（如WuDaoCorpora、BAAI-CCI等）经过22种行业数据处理操作符的清洗和过滤后构建而成，涵盖了18个行业类别，其中金融行业数据规模达197.8GB。数据集的构建时间可追溯至近年，主要研究人员或机构未明确提及，但其核心研究问题聚焦于解决行业模型训练中数据量不足、质量低下及领域专业知识匮乏等问题。通过持续预训练、SFT和DPO训练，该数据集在医疗行业示范模型上表现出显著的性能提升，客观性能提升20%，主观胜率达82%。这一成果为金融及其他行业模型的智能化转型提供了重要数据基础。

当前挑战

IndustryCorpus_finance数据集在构建和应用过程中面临多重挑战。首先，领域问题的挑战在于金融行业数据的复杂性和专业性，要求数据集不仅涵盖广泛的主题，还需具备高准确性和领域相关性，以支持金融模型的精准预测与分析。其次，数据构建过程中，从超过100TB的开源数据中筛选出3.4TB高质量数据，涉及繁重的数据清洗、去重和标注工作，尤其是中文数据的12类标签标注（如字母数字比例、语言置信度等）需要极高的技术精度。此外，数据集的行业分类语言模型虽达到80%的准确率，但仍需进一步提升以应对金融领域特有的术语和语境。这些挑战共同构成了数据集构建与应用的难点，同时也为未来优化提供了方向。

常用场景

经典使用场景

在金融领域，IndustryCorpus_finance数据集被广泛应用于文本生成任务，特别是在金融新闻分析、市场趋势预测和投资策略制定等方面。该数据集通过提供大量高质量的金融文本数据，帮助研究人员和开发者训练出更加精准和高效的金融行业模型。

实际应用

在实际应用中，IndustryCorpus_finance数据集被用于开发智能投顾系统、自动化金融报告生成工具以及金融市场情绪分析平台。这些应用不仅提高了金融从业者的工作效率，还为投资者提供了更加精准的市场分析和决策支持。

衍生相关工作

基于IndustryCorpus_finance数据集，研究人员开发了一系列金融领域的自然语言处理模型，如金融新闻分类器、市场情绪分析模型和自动化报告生成系统。这些工作不仅丰富了金融领域的学术研究，也为金融行业的实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集