IndustryCorpus_politics
收藏数据集概述
数据集描述
该数据集是通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出的高质量多行业分类中英文预训练数据集。原始数据包括WuDaoCorpora、BAAI-CCI、redpajama和SkyPile-150B等。筛选后的数据包括1TB的中文数据和2.4TB的英文数据。
数据处理
- 规则基础过滤:包括繁体中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等。
- 模型基础过滤:使用行业分类语言模型,准确率为80%。
- 数据去重:采用MinHash文档级去重。
数据标注
中文数据包含12种类型的标签,如字母数字比、平均行长度、语言置信度分数、最大行长度和困惑度等。
行业分类
数据集涵盖18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等。
数据大小
- 总数据大小:1TB中文,2.4TB英文。
- 行业分类数据大小:
| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) | | :-------------------:|:----------------:|:-------------------:|:----------------:|| | 编程 | 4.1 | 政治 | 326.4 | | 法律 | 274.6 | 数学 | 5.9 | | 教育 | 458.1 | 体育 | 442 | | 金融 | 197.8 | 文学 | 179.3 | | 计算机科学 | 46.9 | 新闻 | 564.1 | | 技术 | 333.6 | 电影与电视 | 162.1 | | 旅游 | 82.5 | 医学 | 189.4 | | 农业 | 41.6 | 汽车 | 40.8 | | 情感 | 31.7 | 人工智能 | 5.6 | | 总计 (GB) | 3386.5 | | |
数据集验证
通过在医疗行业示范模型上进行持续预训练、SFT和DPO训练,结果显示客观性能提升20%,主观胜率82%。




