five

IndustryCorpus_politics

收藏
Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_politics
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为了改进行业模型性能而构建的,包含3.4TB的高质量多行业分类中英文预训练数据,其中1TB为中文数据,2.4TB为英文数据。数据集通过22个行业数据处理算子从超过100TB的开放源数据集中筛选而来,涵盖18个行业类别,并对中文数据进行了12种类型的标签标注。此外,还进行了医疗行业示范模型的性能验证,显示出显著的性能提升。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总

数据集概述

数据集描述

该数据集是通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出的高质量多行业分类中英文预训练数据集。原始数据包括WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等。筛选后的数据包括1TB的中文数据和2.4TB的英文数据。

数据处理

  • 规则基础过滤:包括繁体中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等。
  • 模型基础过滤:使用行业分类语言模型,准确率为80%。
  • 数据去重:采用MinHash文档级去重。

数据标注

中文数据包含12种类型的标签,如字母数字比、平均行长度、语言置信度分数、最大行长度和困惑度等。

行业分类

数据集涵盖18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等。

数据大小

  • 总数据大小:1TB中文,2.4TB英文。
  • 行业分类数据大小

| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) | | :-------------------:|:----------------:|:-------------------:|:----------------:|| | 编程 | 4.1 | 政治 | 326.4 | | 法律 | 274.6 | 数学 | 5.9 | | 教育 | 458.1 | 体育 | 442 | | 金融 | 197.8 | 文学 | 179.3 | | 计算机科学 | 46.9 | 新闻 | 564.1 | | 技术 | 333.6 | 电影与电视 | 162.1 | | 旅游 | 82.5 | 医学 | 189.4 | | 农业 | 41.6 | 汽车 | 40.8 | | 情感 | 31.7 | 人工智能 | 5.6 | | 总计 (GB) | 3386.5 | | |

数据集验证

通过在医疗行业示范模型上进行持续预训练、SFT和DPO训练,结果显示客观性能提升20%,主观胜率82%。

搜集汇总
数据集介绍
main_image_url
构建方式
IndustryCorpus_politics数据集的构建过程体现了对高质量行业数据的追求。该数据集从超过100TB的开源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据,包括WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等。通过应用22种行业数据处理算子,对数据进行清洗和过滤,最终得到1TB的中文数据和2.4TB的英文数据。中文数据进一步标注了12种标签,如字母数字比例、平均行长度、语言置信度分数等,以确保数据的专业性和可用性。
特点
IndustryCorpus_politics数据集的特点在于其广泛覆盖的行业类别和精细的数据处理。该数据集涵盖了18个行业类别,包括医疗、教育、文学、金融等,每个类别的数据量均经过精确统计。数据通过规则和模型双重过滤,确保高质量和低噪声。中文数据标注了多种语言特征,便于用户进行深入分析。此外,数据集还进行了文档级别的去重处理,进一步提升了数据的纯净度。
使用方法
IndustryCorpus_politics数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以根据需求下载特定行业的子数据集,如政治行业数据集。数据集的中文标注信息为文本生成、分类等任务提供了丰富的基础。通过继续预训练、SFT和DPO训练,用户可以在特定行业模型上验证数据集的性能。数据集的详细统计信息和处理流程图为用户提供了清晰的指导,便于快速上手和高效利用。
背景与挑战
背景概述
IndustryCorpus_politics数据集是近年来为应对行业模型训练中数据质量不足、领域专业知识匮乏等问题而构建的高质量多行业分类语料库。该数据集由多个开源数据集(如WuDaoCorpora、BAAI-CCI等)经过22种行业数据处理操作符的清洗和过滤,最终从超过100TB的原始数据中提取出3.4TB的高质量中英文预训练数据。其中,政治行业子集的数据量达到326.4GB,涵盖了18个行业类别之一。该数据集的构建旨在提升大模型在行业应用中的性能,特别是在政治领域的文本生成任务中表现出显著效果,验证实验显示其使医疗行业示范模型的客观性能提升了20%。
当前挑战
IndustryCorpus_politics数据集在构建过程中面临多重挑战。首先,原始数据中存在大量噪声,如无效字符、重复内容及非目标语言文本,需通过规则过滤和模型过滤相结合的方式进行清理。其次,数据标注的复杂性较高,中文数据需标注字母数字比例、语言置信度等12类标签,这对标注效率和准确性提出了较高要求。此外,数据去重和行业分类的准确性也是关键挑战,需依赖MinHash文档级去重技术和行业分类语言模型(准确率80%)来实现。最后,如何平衡数据规模与质量,确保数据集在行业模型训练中的实际效果,仍需进一步优化和验证。
常用场景
经典使用场景
IndustryCorpus_politics数据集在政治领域的文本生成任务中展现了其独特的价值。该数据集通过高质量的中英文政治文本,为研究者提供了丰富的语料资源,特别适用于训练和优化政治领域的自然语言处理模型。通过该数据集,研究者能够生成更加精准和符合政治语境的语言模型,从而在政治文本分析、政策解读等领域取得显著进展。
实际应用
在实际应用中,IndustryCorpus_politics数据集被广泛用于政治新闻自动生成、政策文件分析、政治舆情监测等场景。通过该数据集训练的模型能够更准确地理解和生成政治文本,帮助政府机构、新闻媒体和研究机构快速获取和分析政治信息,提升决策效率和舆情应对能力。
衍生相关工作
基于IndustryCorpus_politics数据集,研究者们开发了多个经典的自然语言处理模型和应用。例如,一些研究利用该数据集训练了专门用于政治文本生成的GPT模型,显著提升了生成文本的准确性和流畅性。此外,该数据集还被用于政治情感分析、政策文本分类等任务,推动了政治领域自然语言处理技术的创新和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作