five

IndustryCorpus_news

收藏
Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_news
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个高质量的多行业分类中英文预训练数据集,通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出3.4TB的高质量数据。数据集包括1TB的中文数据和2.4TB的英文数据,涵盖18个行业类别,并进行了详细的标注和过滤,以提高数据质量和适用性。数据集的性能通过模型训练得到验证,显示了显著的改进。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总

数据集概述

数据集描述

  • 语言: 中文和英文
  • 数据量: 1TB中文数据,2.4TB英文数据
  • 任务类别: 文本生成
  • 行业分类: 18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等

数据处理

  • 数据来源: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
  • 数据处理操作: 22个行业数据处理操作符,用于清洗和过滤
  • 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
  • 模型过滤: 行业分类语言模型,准确率80%
  • 数据去重: MinHash文档级去重

数据标注

  • 中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签

数据集大小

  • 行业分类数据大小:

| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) | | :-------------------:|:----------------:|:-------------------:|:----------------:|| 编程 | 4.1 | 政治 | 326.4 | | 法律 | 274.6 | 数学 | 5.9 | | 教育 | 458.1 | 体育 | 442 | | 金融 | 197.8 | 文学 | 179.3 | | 计算机科学 | 46.9 | 新闻 | 564.1 | | 技术 | 333.6 | 影视 | 162.1 | | 旅游 | 82.5 | 医学 | 189.4 | | 农业 | 41.6 | 汽车 | 40.8 | | 情感 | 31.7 | 人工智能 | 5.6 | | 总计 (GB) | 3386.5 | | |

数据集使用

  • 数据集分割: 将大型数据集分割成18个行业的子数据集,当前为新闻行业子数据集
搜集汇总
数据集介绍
构建方式
IndustryCorpus_news数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中,通过22种行业数据处理算子,清洗和筛选出3.4TB的多行业分类中英文预训练数据。具体而言,1TB的中文数据和2.4TB的英文数据经过规则过滤和模型过滤,确保了数据的纯净度和专业性。中文数据还额外标注了12种标签,如字母数字比例、平均行长度等,以提升数据的可用性。
特点
IndustryCorpus_news数据集以其广泛的行业覆盖和高质量的数据标注脱颖而出。该数据集涵盖18个行业类别,包括医疗、教育、新闻等,每个类别的数据量均经过精确统计。中文数据通过多种标签进行标注,如语言置信度得分、困惑度等,为模型训练提供了丰富的特征信息。此外,数据经过严格的去重和过滤处理,确保了数据的唯一性和专业性,为行业模型的训练提供了坚实的基础。
使用方法
IndustryCorpus_news数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以根据需求下载特定行业的子数据集,如新闻行业子集。数据集的中文标注信息为模型训练提供了额外的特征维度,可用于提升模型的性能。此外,数据集的分割设计便于用户按需加载和处理,降低了计算资源的消耗。通过该数据集,用户能够高效地进行行业模型的预训练、微调和优化,推动行业智能化应用的落地。
背景与挑战
背景概述
IndustryCorpus_news数据集是为解决行业模型训练中数据质量不足、领域专业知识匮乏等问题而构建的高质量多行业分类预训练数据集。该数据集由多个开源数据集(如WuDaoCorpora、BAAI-CCI等)经过22种行业数据处理操作符的清洗与过滤,最终筛选出3.4TB的中英文数据,其中中文数据1TB,英文数据2.4TB。数据集涵盖了医疗、教育、金融、新闻等18个行业类别,并通过标注12种标签(如字母数字比例、语言置信度等)进一步提升了数据的可用性。该数据集的构建旨在推动企业智能化转型与创新发展,已在医疗行业示范模型中验证了其性能提升效果。
当前挑战
IndustryCorpus_news数据集在构建过程中面临多重挑战。首先,原始数据来源广泛且质量参差不齐,需通过复杂的规则过滤与模型筛选确保数据的高质量与领域相关性。其次,数据清洗过程中需处理多种噪声,如繁体中文转换、电子邮件与链接移除等,这对数据处理技术的精度与效率提出了较高要求。此外,数据去重与行业分类的准确性也是关键挑战,需依赖高效的算法与高精度的分类模型。最后,如何平衡数据规模与质量,确保其在行业模型训练中的实际效果,仍需进一步优化与验证。
常用场景
经典使用场景
在自然语言处理领域,IndustryCorpus_news数据集被广泛应用于新闻行业的文本生成任务。该数据集通过提供高质量的新闻文本数据,支持模型在新闻摘要生成、新闻分类以及新闻内容推荐等任务中的训练与优化。其多语言特性(中文和英文)使得该数据集在全球范围内的新闻行业应用中具有广泛的适用性。
实际应用
在实际应用中,IndustryCorpus_news数据集被用于构建智能新闻推荐系统、自动化新闻摘要生成工具以及新闻内容分类引擎。例如,新闻机构可以利用该数据集训练模型,自动生成新闻摘要,提升内容生产效率;同时,基于该数据集的推荐系统能够为用户提供个性化的新闻推送服务,增强用户体验。
衍生相关工作
基于IndustryCorpus_news数据集,研究者们开发了一系列经典的自然语言处理模型和应用。例如,新闻摘要生成模型NewsSum和新闻分类系统NewsClassify均采用了该数据集进行训练。此外,该数据集还被用于新闻情感分析、新闻事件检测等任务,推动了新闻行业智能化应用的快速发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作