IndustryCorpus2 30类行业分类的高质量预训练数据集
收藏魔搭社区2026-06-12 更新2024-09-28 收录
下载链接:
https://modelscope.cn/datasets/BAAI/IndustryCorpus2
下载链接
链接失效反馈官方服务:
资源简介:
智源人工智能研究院IndustryCorpus2 30类行业分类的高质量预训练数据集,可用于行业语言大模型的预训练或继续预训练阶段。
IndustryCorpus2, a high-quality pre-training dataset with 30 industry categories developed by Beijing Academy of Artificial Intelligence, can be utilized for the pre-training or continued pre-training stages of industry-specific large language models.
提供机构:
maas
创建时间:
2024-09-23
搜集汇总
数据集介绍

背景与挑战
背景概述
IndustryCorpus2是一个高质量的预训练数据集,针对30类行业分类进行了升级,扩展了数据来源并更新行业类别至31个,覆盖主流行业。数据经过质量筛选和分层处理,包含高、中、低三个级别,总规模为1TB中文和2.2TB英文。
以上内容由遇见数据集搜集并总结生成



