IndustryCorpus_education
收藏Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_education
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了解决行业模型训练中数据量不足、质量低和缺乏领域专业知识的问题而构建的。通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据集,包括1TB的中文数据和2.4TB的英文数据。中文数据进行了12种类型的标签标注,如字母数字比率、平均行长度、语言置信度分数、最大行长度和困惑度等。数据集涵盖18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等,并采用了基于规则和模型的过滤方法,以及文档级别的去重技术。数据集的大小为1TB中文和2.4TB英文,具体到各个行业类别,数据大小也有详细列出。
This dataset was constructed to address the challenges of insufficient data volume, low data quality, and lack of domain-specific expertise during industry model training. Leveraging 22 industry-specific data processing operators, we screened 3.4 TB of high-quality multi-domain categorized Chinese-English pre-training dataset from a corpus of over 100 TB of open-source data, which comprises 1 TB of Chinese data and 2.4 TB of English data. The Chinese data was annotated with 12 types of tags, including alphanumeric ratio, average line length, language confidence score, maximum line length, perplexity, and others. The dataset covers 18 industry categories, such as healthcare, education, literature, finance, tourism, law, sports, automotive, news, and more, and employs both rule-based and model-based filtering methods as well as document-level deduplication techniques. The overall scale of the dataset is 1 TB of Chinese data and 2.4 TB of English data, with the exact data volume for each specific industry category also explicitly specified.
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总
数据集概述
数据集描述
- 语言: 中文和英文
- 数据大小: 1TB中文数据,2.4TB英文数据
- 任务类别: 文本生成
- 行业分类: 包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等18个类别
数据处理
- 数据来源: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora、BAAI-CCI、redpajama、SkyPile-150B
- 处理操作: 应用22个行业数据处理操作符进行清洗和过滤
- 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
- 模型过滤: 使用行业分类语言模型,准确率80%
- 数据去重: 使用MinHash文档级去重
数据标注
- 中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签
数据集验证
- 模型训练: 进行持续预训练、SFT和DPO训练
- 性能提升: 客观性能提升20%,主观胜率82%
行业分类数据大小
| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) |
|---|---|---|---|
| 编程 | 4.1 | 政治 | 326.4 |
| 法律 | 274.6 | 数学 | 5.9 |
| 教育 | 458.1 | 体育 | 442 |
| 金融 | 197.8 | 文学 | 179.3 |
| 计算机科学 | 46.9 | 新闻 | 564.1 |
| 技术 | 333.6 | 影视 | 162.1 |
| 旅游 | 82.5 | 医学 | 189.4 |
| 农业 | 41.6 | 汽车 | 40.8 |
| 情感 | 31.7 | 人工智能 | 5.6 |
| 总计 (GB) | 3386.5 |
搜集汇总
数据集介绍

构建方式
IndustryCorpus_education数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中,通过22种行业数据处理算子,清洗和过滤出3.4TB的高质量多行业分类中英文预训练数据。特别地,中文数据经过12种标签的标注,包括字母数字比例、平均行长度、语言置信度分数等,确保了数据的多样性和专业性。此外,数据还经过基于模型的行业分类和文档级别的去重处理,进一步提升了数据的质量和可用性。
特点
IndustryCorpus_education数据集的特点在于其广泛覆盖的行业类别和精细的数据标注。该数据集涵盖了18个行业类别,包括教育、医疗、法律等,每个类别都有详细的数据量统计。中文数据特别标注了多种语言特征和内容质量指标,如语言置信度分数和毒性字符比例,这些标注为模型的训练提供了丰富的上下文信息。此外,数据集的构建还采用了基于模型的过滤和去重技术,确保了数据的高质量和低冗余。
使用方法
IndustryCorpus_education数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以根据需要下载特定行业的数据子集,如教育行业的数据子集。数据集的中文部分提供了详细的标签信息,这些信息可以用于模型的预训练、微调或特定任务的训练。此外,数据集的构建过程中采用的过滤和去重技术,使得数据可以直接用于模型训练,减少了预处理的工作量。用户还可以参考数据集的处理流程,了解如何从原始数据到高质量训练数据的转换过程。
背景与挑战
背景概述
IndustryCorpus_education数据集是近年来为应对行业模型训练中数据质量不足、领域专业知识匮乏等问题而构建的高质量多行业分类预训练数据集。该数据集由多个开源数据集(如WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B)经过22种行业数据处理操作符的清洗与过滤,最终从超过100TB的数据中筛选出3.4TB的高质量中英文数据,其中中文数据1TB,英文数据2.4TB。数据集涵盖了医疗、教育、文学、金融等18个行业类别,旨在通过高质量数据提升大模型的性能,推动企业智能化转型与创新发展。通过持续预训练、SFT和DPO训练,该数据集在医疗行业示范模型上表现出显著的性能提升,客观性能提高了20%,主观胜率达到82%。
当前挑战
IndustryCorpus_education数据集在构建过程中面临多重挑战。首先,行业模型训练对数据质量和领域专业知识的要求极高,而现有数据集普遍存在数据量不足、质量参差不齐的问题。其次,数据清洗与过滤过程复杂,需通过规则过滤(如繁体中文转换、邮件地址移除等)和基于模型的过滤(如行业分类语言模型)确保数据的高质量与专业性。此外,数据去重与标注(如字母数字比例、语言置信度评分等)也增加了构建难度。最后,如何将大规模数据集高效分割为行业子集,并确保其在实际应用中的性能验证,也是该数据集面临的重要挑战。
常用场景
经典使用场景
IndustryCorpus_education数据集在教育领域的经典使用场景主要体现在其作为大规模预训练数据集的角色,支持教育相关的大模型训练。通过提供高质量的中英文教育文本数据,该数据集能够帮助研究人员和开发者构建更精准的教育领域语言模型,进而应用于智能教学系统、在线教育平台以及教育内容自动生成等场景。
解决学术问题
该数据集有效解决了教育领域大模型训练中数据质量不足、领域专业性欠缺等问题。通过严格的规则过滤和模型筛选,数据集确保了文本的多样性和专业性,显著提升了模型在教育任务中的表现。实验表明,基于该数据集训练的模型在客观性能上提升了20%,为主观评估提供了82%的胜率,为教育领域的自然语言处理研究提供了强有力的数据支持。
衍生相关工作
基于IndustryCorpus_education数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了教育领域的预训练语言模型,进一步推动了智能教育技术的发展。此外,该数据集还被用于教育文本分类、问答系统优化以及多语言教育资源的构建,为教育领域的自然语言处理研究提供了丰富的数据基础和实验平台。
以上内容由遇见数据集搜集并总结生成



