IndustryCorpus_mathematics|数学数据集|预训练数据集数据集
收藏huggingface2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_mathematics
下载链接
链接失效反馈资源简介:
本数据集是一个高质量的多行业分类中英文预训练数据集,通过22个行业数据处理操作符从超过100TB的开放源数据集中筛选出3.4TB的高质量数据,包括1TB的中文数据和2.4TB的英文数据。数据集涵盖18个行业类别,并进行了详细的标注和过滤处理,如传统中文转换、电子邮件和IP地址移除、链接移除、Unicode修复等。此外,数据集还进行了模型训练验证,显示了显著的性能提升。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总
数据集概述
数据集基本信息
- 许可证:Apache 2.0
- 语言:中文、英文
- 数据量:1TB 中文数据,2.4TB 英文数据
- 任务类别:文本生成
数据集构建
- 原始数据来源:WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
- 原始数据量:超过 100TB
- 处理后数据量:3.4TB
- 行业分类:18个行业类别
- 数据处理操作:22个行业数据处理操作符
数据处理方法
- 基于规则的过滤:繁体中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
- 基于模型的过滤:行业分类语言模型,准确率80%
- 数据去重:MinHash文档级去重
数据标注
- 中文数据标注:12种标签,包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度等
数据集验证
- 模型训练:继续预训练、SFT、DPO训练
- 性能提升:客观性能提升20%,主观胜率82%
行业分类数据量
| 行业类别 | 数据量 (GB) | 行业类别 | 数据量 (GB) |
|---|---|---|---|
| 编程 | 4.1 | 政治 | 326.4 |
| 法律 | 274.6 | 数学 | 5.9 |
| 教育 | 458.1 | 体育 | 442 |
| 金融 | 197.8 | 文学 | 179.3 |
| 计算机科学 | 46.9 | 新闻 | 564.1 |
| 技术 | 333.6 | 影视 | 162.1 |
| 旅游 | 82.5 | 医学 | 189.4 |
| 农业 | 41.6 | 汽车 | 40.8 |
| 情感 | 31.7 | 人工智能 | 5.6 |
| 总计 (GB) | 3386.5 |
AI搜集汇总
数据集介绍

构建方式
IndustryCorpus_mathematics数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中,如WuDaoCorpora、BAAI-CCI等,通过22种行业数据处理算子进行清洗和过滤,最终提取出3.4TB的高质量多行业分类中英文预训练数据集。特别地,中文数据经过12种标签的标注,包括字母数字比例、平均行长度等,确保了数据的专业性和可用性。
特点
该数据集的特点在于其广泛覆盖了18个行业类别,包括医疗、教育、法律等,每个类别的数据量均经过精确统计。数据集中的中文数据特别标注了多种语言特征,如语言置信度分数、困惑度等,这些标注为模型训练提供了丰富的语言特征信息。此外,数据集通过模型过滤和文档级去重技术,确保了数据的独特性和高质量。
使用方法
IndustryCorpus_mathematics数据集的使用方法灵活多样,适用于多种自然语言处理任务,如文本生成、语言模型训练等。用户可以根据需要下载特定行业的子数据集,如数学行业的数据集。此外,数据集的中文标注信息为特定领域的研究和开发提供了便利,使得模型训练更加精准和高效。
背景与挑战
背景概述
IndustryCorpus_mathematics数据集是IndustryCorpus系列中的一个子集,专注于数学领域的文本数据。该数据集由多个研究机构联合构建,旨在解决行业模型训练中数据质量不足、领域专业知识缺乏等问题。通过对超过100TB的开源数据集进行清洗和过滤,最终生成了1TB的中文和2.4TB的英文高质量预训练数据。该数据集涵盖了18个行业类别,其中数学领域的数据量为5.9GB。数据集的构建过程中,采用了22种行业数据处理算子,确保了数据的多样性和专业性。该数据集的发布为数学领域的自然语言处理研究提供了重要的资源支持,推动了行业模型在数学领域的应用与发展。
当前挑战
IndustryCorpus_mathematics数据集在构建过程中面临多重挑战。首先,数学领域的文本数据具有高度的专业性和复杂性,如何从海量数据中筛选出高质量且具有代表性的数学文本是一个关键问题。其次,数据清洗和过滤过程中,需要处理诸如传统中文转换、电子邮件删除、IP地址去除等技术难题,以确保数据的纯净度。此外,数据标注和分类的准确性也是一个重要挑战,尤其是在多语言环境下,如何确保语言模型的分类准确率达到80%以上,需要大量的计算资源和算法优化。最后,数据去重和分块处理也对存储和计算能力提出了较高要求,尤其是在处理TB级数据时,如何高效地进行文档级去重和分块存储是一个技术难点。
常用场景
经典使用场景
在数学领域的自然语言处理研究中,IndustryCorpus_mathematics数据集被广泛应用于文本生成模型的训练与优化。该数据集通过提供高质量的数学相关文本,支持模型在数学问题解答、数学文献生成等任务中的表现提升。其丰富的标注信息和多样化的文本类型,使得研究者能够深入探索数学语言的特征与规律。
衍生相关工作
基于IndustryCorpus_mathematics数据集,研究者开发了一系列数学领域的自然语言处理模型,如数学文本分类器、数学问题生成器以及跨语言数学翻译系统。这些工作不仅扩展了数学语言处理的研究边界,还为其他学科领域的文本处理提供了借鉴与参考。
数据集最近研究
最新研究方向
在工业智能化和创新发展的背景下,高质量行业数据对于提升大模型性能至关重要。IndustryCorpus_mathematics数据集作为多行业分类预训练数据集的一部分,专注于数学领域的数据处理与应用。近年来,该数据集在数学文本生成、数学问题求解以及数学教育智能化等前沿研究方向展现出显著潜力。通过结合规则过滤和模型过滤技术,数据集在数学领域的语言模型训练中表现出较高的准确性和稳定性。此外,该数据集在数学教育领域的应用,如智能辅导系统和个性化学习路径推荐,已成为研究热点。其影响不仅限于学术研究,还推动了数学教育资源的智能化分配和优化,具有广泛的社会意义。
以上内容由AI搜集并总结生成



