IndustryCorpus_literature
收藏Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_literature
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了改善行业模型性能而构建的,包含1TB中文和2.4TB英文的高质量多行业分类预训练数据。数据集通过22个数据处理操作符从100TB开放源数据中筛选出,并进行了12种类型的中文数据标签标注。数据集涵盖18个行业类别,包括医疗、教育、文学、金融等,并进行了基于规则和模型的过滤以及文档级别的去重。通过在医疗行业示范模型上的训练,显示了20%的客观性能提升和82%的主观胜率。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总
数据集概述
数据集描述
- 语言: 中文和英文
- 数据大小: 1TB中文数据,2.4TB英文数据
- 任务类别: 文本生成
- 行业分类: 18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等
数据处理
- 数据来源: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
- 数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
- 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
- 模型过滤: 使用行业分类语言模型,准确率80%
- 数据去重: MinHash文档级去重
数据标注
- 中文数据标注: 12种标签,包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度等
数据集表现
- 模型训练: 在医疗行业示范模型上进行连续预训练、SFT和DPO训练
- 性能提升: 客观性能提升20%,主观胜率82%
行业分类数据大小
| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) |
|---|---|---|---|
| 编程 | 4.1 | 政治 | 326.4 |
| 法律 | 274.6 | 数学 | 5.9 |
| 教育 | 458.1 | 体育 | 442 |
| 金融 | 197.8 | 文学 | 179.3 |
| 计算机科学 | 46.9 | 新闻 | 564.1 |
| 技术 | 333.6 | 影视 | 162.1 |
| 旅游 | 82.5 | 医学 | 189.4 |
| 农业 | 41.6 | 汽车 | 40.8 |
| 情感 | 31.7 | 人工智能 | 5.6 |
| 总计 (GB) | 3386.5 |
搜集汇总
数据集介绍

构建方式
IndustryCorpus_literature数据集的构建基于对超过100TB开源数据集(如WuDaoCorpora、BAAI-CCI等)的深度处理。通过应用22种行业数据处理算子,对原始数据进行清洗和过滤,最终筛选出3.4TB高质量的多行业分类中英文预训练数据。其中,中文数据经过12种标签的标注,包括字母数字比例、平均行长度等,以确保数据的多样性和专业性。
特点
该数据集涵盖了18个行业类别,包括医疗、教育、文学、金融等,数据总量达到3.4TB,其中中文数据1TB,英文数据2.4TB。数据集通过规则和模型双重过滤,确保数据的高质量和领域专业性。中文数据还额外标注了多种语言特征,如语言置信度得分、困惑度等,为模型训练提供了丰富的上下文信息。
使用方法
用户可通过下载分行业子数据集的方式获取数据,当前提供的是文学行业子数据集。数据集适用于文本生成任务,用户可直接用于预训练、微调(SFT)和直接偏好优化(DPO)等模型训练场景。通过实际验证,该数据集在医疗行业示范模型上的应用显著提升了模型性能,客观指标提升20%,主观胜率达82%。
背景与挑战
背景概述
IndustryCorpus_literature数据集是在企业智能化转型和创新发展的背景下应运而生的。随着大模型在各行业的广泛应用,高质量行业数据的需求日益凸显。然而,现有的行业模型训练数据集普遍存在数据量不足、质量低下以及缺乏领域专业知识等问题。为解决这些问题,研究团队通过应用22种行业数据处理算子,从超过100TB的开源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据,其中包括1TB中文数据和2.4TB英文数据。该数据集覆盖医疗、教育、文学、金融等18个行业类别,并通过标注和过滤技术提升了数据的可用性和专业性。其构建不仅为行业模型的训练提供了高质量数据支持,还通过实验验证了其在医疗行业模型中的显著性能提升。
当前挑战
IndustryCorpus_literature数据集在构建过程中面临多重挑战。首先,行业数据的多样性和复杂性使得数据清洗和过滤成为一项艰巨任务,需通过传统中文转换、邮件删除、IP地址删除等多种规则化处理手段确保数据质量。其次,数据标注的准确性直接影响模型的训练效果,研究团队通过引入语言置信度评分、困惑度等12种标签对中文数据进行精细化标注,但如何平衡标注成本与数据质量仍需进一步探索。此外,数据去重和行业分类的准确性也是关键挑战,研究团队采用MinHash文档级去重和行业分类语言模型进行优化,但其80%的准确率仍有提升空间。最后,如何将大规模数据集高效地分割为行业子集并确保其可用性,也是数据集构建中需要解决的重要问题。
常用场景
经典使用场景
在自然语言处理领域,IndustryCorpus_literature数据集被广泛应用于文本生成任务,尤其是在文学领域的模型训练中。该数据集通过提供高质量的文学文本,支持模型在文学创作、文本摘要、风格模仿等方面的应用。其多语言特性(中文和英文)使得模型能够在跨语言环境中表现出色,进一步推动了文学创作自动化的研究。
解决学术问题
IndustryCorpus_literature数据集解决了当前行业模型训练中数据量不足、质量低下以及缺乏领域专业知识的问题。通过从多个开源数据集中筛选和清洗出高质量的文学文本,该数据集为研究者提供了丰富的训练资源,显著提升了模型在文学领域的表现。其标注的多种语言特征(如字母数字比例、语言置信度等)也为文本质量评估提供了新的研究视角。
衍生相关工作
基于IndustryCorpus_literature数据集,研究者开发了多种文学领域的文本生成模型,如基于GPT的文学创作模型和跨语言文学风格迁移模型。这些模型在文学创作、文本摘要和风格模仿等任务中表现出色,推动了文学与人工智能的深度融合。此外,该数据集还催生了多个文学文本质量评估工具,为文本生成领域的研究提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成



