IndustryCorpus_finance
收藏数据集概述
数据集描述
- 语言: 中文和英文
- 数据量: 1TB中文数据,2.4TB英文数据
- 任务类别: 文本生成
- 行业分类: 18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等
数据处理
- 数据来源: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
- 数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
- 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
- 模型过滤: 使用行业分类语言模型,准确率80%
- 数据去重: 使用MinHash文档级去重
数据标注
- 中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签
数据集大小
-
行业分类数据大小:
| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) | | :-------------------:|:----------------:|:-------------------:|:----------------:|| 编程 | 4.1 | 政治 | 326.4 || 法律 | 274.6 | 数学 | 5.9 || 教育 | 458.1 | 体育 | 442 || 金融 | 197.8 | 文学 | 179.3 || 计算机科学 | 46.9 | 新闻 | 564.1 || 技术 | 333.6 | 影视 | 162.1 || 旅游 | 82.5 | 医学 | 189.4 || 农业 | 41.6 | 汽车 | 40.8 || 情感 | 31.7 | 人工智能 | 5.6 || 总计 (GB) | 3386.5 | | |
数据集验证
- 模型训练: 进行了持续预训练、SFT和DPO训练
- 性能提升: 客观性能提升20%,主观胜率82%
数据集分割
- 分割方式: 将大数据集分割成18个行业的子数据集,当前为金融行业子数据集




