IndustryCorpus
收藏Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/BAAI/IndustryCorpus
下载链接
链接失效反馈官方服务:
资源简介:
该仓库旨在驱动企业智能化转型和创新发展,提供高质量的行业数据。它构建并应用了22个行业数据处理算子,从超过100TB的开源数据集中清洗过滤出3.4TB的高质量多行业分类中英文预训练数据集,其中包含1TB的中文数据和2.4TB的英文数据。为了方便用户使用,该仓库对中文数据进行了标注,包括字母数字比率、平均行长、语言置信度得分、最大行长和困惑度等12种类型的标签。该仓库的数据集支持文本生成等任务,并采用Apache-2.0授权许可。通过在医疗行业示范模型上进行持续预训练、SFT和DPO训练,验证了数据集的性能,结果显示客观性能提高了20%,主观胜率达到了82%。
创建时间:
2024-07-19



