five

IndustryCorpus_law

收藏
Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_law
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是一个高质量的多行业分类中英文预训练数据集,通过22个行业数据处理操作符从超过100TB的开放源数据集中筛选出3.4TB的高质量数据,包括1TB的中文数据和2.4TB的英文数据。数据集涵盖18个行业类别,并对中文数据进行了12种类型的标签标注,以提高数据的质量和可用性。数据集已被分割成18个行业的子数据集,便于用户下载和使用。

This is a high-quality Chinese-English pre-training dataset for multi-industry classification. A total of 3.4 TB of high-quality data, including 1 TB of Chinese data and 2.4 TB of English data, was filtered from over 100 TB of open-source datasets using 22 industry-specific data processing operators. The dataset covers 18 industry categories, and 12 types of label annotations are applied to the Chinese data to improve its quality and usability. It has been split into sub-datasets corresponding to each of the 18 industries, facilitating users' download and utilization.
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总

数据集概述

数据集描述

  • 语言: 中文和英文
  • 数据量: 1TB中文数据,2.4TB英文数据
  • 任务类别: 文本生成
  • 行业分类: 18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等

数据处理

  • 数据来源: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
  • 数据处理操作: 22个行业数据处理操作符,用于清洗和过滤
  • 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
  • 模型过滤: 行业分类语言模型,准确率80%
  • 数据去重: MinHash文档级去重

数据标注

  • 中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签

数据集验证

  • 模型训练: 进行了持续预训练、SFT和DPO训练
  • 性能提升: 客观性能提升20%,主观胜率82%

行业分类数据量

行业类别 数据量 (GB) 行业类别 数据量 (GB)
编程 4.1 政治 326.4
法律 274.6 数学 5.9
教育 458.1 体育 442
金融 197.8 文学 179.3
计算机科学 46.9 新闻 564.1
技术 333.6 影视 162.1
旅游 82.5 医学 189.4
农业 41.6 汽车 40.8
情感 31.7 人工智能 5.6
总计 (GB) 3386.5
搜集汇总
数据集介绍
main_image_url
构建方式
IndustryCorpus_law数据集的构建基于对超过100TB开源数据集的深度处理,包括WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等。通过应用22种行业数据处理算子,对原始数据进行清洗和过滤,最终从3.4TB的高质量多行业分类中英文预训练数据中筛选出1TB的中文数据和2.4TB的英文数据。中文数据进一步通过12种标签进行标注,如字母数字比例、平均行长度、语言置信度分数等,以确保数据的专业性和可用性。
特点
该数据集涵盖了18个行业类别,包括法律、医疗、教育、金融等,每个类别的数据量均经过精确统计和分类。数据集特别注重法律行业的数据,提供了274.6GB的专门数据。数据经过严格的规则和模型过滤,包括繁体中文转换、电子邮件移除、IP地址移除等,确保了数据的高质量和专业性。此外,数据集还通过MinHash文档级去重技术,进一步提升了数据的唯一性和准确性。
使用方法
IndustryCorpus_law数据集的使用方法包括继续预训练、监督微调(SFT)和直接偏好优化(DPO)训练。用户可以根据需要下载特定行业的子数据集进行模型训练和验证。数据集的标注信息为模型训练提供了丰富的特征,如字母数字比例、语言置信度等,有助于提升模型在特定行业任务中的表现。此外,数据集的分割设计便于用户根据具体需求选择和使用,极大地提高了数据利用的灵活性和效率。
背景与挑战
背景概述
IndustryCorpus_law数据集是面向法律行业的高质量多语言预训练数据集,旨在解决行业模型训练中数据量不足、质量低下及缺乏领域专业知识的问题。该数据集由多个开源数据集(如WuDaoCorpora、BAAI-CCI等)经过22种行业数据处理操作符的清洗与过滤,最终从超过100TB的原始数据中提取出3.4TB的高质量数据,其中中文数据1TB,英文数据2.4TB。数据集涵盖了18个行业类别,法律行业数据量达274.6GB。通过标注12种标签(如字母数字比例、语言置信度等),进一步提升了数据的可用性。该数据集的构建为法律行业模型的训练与优化提供了重要支持,推动了行业智能化转型与创新发展。
当前挑战
IndustryCorpus_law数据集在构建与应用过程中面临多重挑战。首先,法律领域的文本具有高度的专业性与复杂性,如何确保数据的领域相关性与准确性成为核心问题。其次,数据清洗与过滤过程中,需处理传统中文转换、链接删除、Unicode修复等技术难题,同时需通过基于行业分类的语言模型进行精准筛选,确保数据质量。此外,数据去重与标注工作也需耗费大量计算资源与时间。尽管数据集在法律行业模型训练中表现出显著性能提升(如客观性能提升20%),但其规模与复杂性仍对存储、传输与计算能力提出了较高要求,进一步优化数据处理流程与提升模型泛化能力仍是未来研究的重点。
常用场景
经典使用场景
在法律领域,IndustryCorpus_law数据集为法律文本的生成和理解提供了丰富的语料资源。该数据集通过高质量的法律文本数据,支持法律文档的自动生成、法律咨询系统的开发以及法律案例的分析。其多语言特性使得跨国法律研究和应用成为可能,极大地提升了法律文本处理的效率和准确性。
解决学术问题
IndustryCorpus_law数据集解决了法律文本处理中数据稀缺和质量参差不齐的问题。通过大规模、高质量的法律文本数据,研究者能够更有效地训练法律领域的自然语言处理模型,提升法律文本分类、信息抽取和问答系统的性能。该数据集的应用显著推动了法律智能化的研究进展,为法律领域的学术研究提供了坚实的基础。
衍生相关工作
基于IndustryCorpus_law数据集,研究者开发了多种法律领域的自然语言处理模型,如法律文本分类器、法律问答系统和法律文书生成器。这些模型在法律实践中得到了广泛应用,显著提升了法律服务的效率和质量。此外,该数据集还促进了法律文本挖掘、法律知识图谱构建等相关研究的发展,推动了法律智能化的进一步深入。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作