IndustryCorpus_automobile
收藏Hugging Face2024-07-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_automobile
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了解决行业模型训练数据集存在的问题而构建的,包括数据量不足、质量低和缺乏领域专业性。通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据集。筛选后的数据包括1TB的中文数据和2.4TB的英文数据,并对中文数据进行了12种类型的标签标注。数据集涵盖18个行业类别,包括医疗、教育、文学、金融等,并进行了基于规则和模型的过滤以及文档级别的去重。数据集被分割成18个行业的子数据集,当前描述的是汽车行业的子数据集。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总
数据集概述
数据集描述
- 语言: 中文和英文
- 数据大小: 1TB中文数据,2.4TB英文数据
- 任务类别: 文本生成
- 行业分类: 18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等
数据处理
- 数据来源: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
- 数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
- 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
- 模型过滤: 使用行业分类语言模型,准确率80%
- 数据去重: 使用MinHash文档级去重
数据标注
- 中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签
数据集性能验证
- 模型训练: 进行了持续预训练、SFT和DPO训练
- 性能提升: 目标性能提升20%,主观胜率82%
行业分类数据大小
| 行业类别 | 数据大小 (GB) | 行业类别 | 数据大小 (GB) |
|---|---|---|---|
| 编程 | 4.1 | 政治 | 326.4 |
| 法律 | 274.6 | 数学 | 5.9 |
| 教育 | 458.1 | 体育 | 442 |
| 金融 | 197.8 | 文学 | 179.3 |
| 计算机科学 | 46.9 | 新闻 | 564.1 |
| 技术 | 333.6 | 影视 | 162.1 |
| 旅游 | 82.5 | 医学 | 189.4 |
| 农业 | 41.6 | 汽车 | 40.8 |
| 情感 | 31.7 | 人工智能 | 5.6 |
| 总计 (GB) | 3386.5 |
数据集分割
- 分割方式: 将大数据集分割成18个行业的子数据集,当前为汽车行业子数据集
搜集汇总
数据集介绍

构建方式
IndustryCorpus_automobile数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中,通过22种行业数据处理算子,清洗和过滤出3.4TB的高质量多行业分类中英文预训练数据。具体而言,中文数据经过12种标签的标注,包括字母数字比例、平均行长度、语言置信度评分等,以确保数据的多样性和专业性。此外,数据集还采用了基于模型的过滤和文档级去重技术,进一步提升了数据的精确性和实用性。
使用方法
IndustryCorpus_automobile数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以根据需求选择下载特定行业的子数据集,如汽车行业数据。数据集的中文部分提供了详细的标注信息,用户可以直接利用这些标注进行模型训练或评估。此外,数据集还支持继续预训练、SFT和DPO训练等多种训练方式,用户可以根据具体任务需求选择合适的训练策略。通过这种方式,数据集能够有效提升模型在特定行业领域的表现。
背景与挑战
背景概述
IndustryCorpus_automobile数据集是在企业智能化转型和创新发展的背景下应运而生的。随着大模型在各行各业的应用日益广泛,高质量行业数据的需求变得尤为迫切。然而,现有的行业模型训练数据集普遍存在数据量不足、质量低下以及缺乏领域专业知识等问题。为此,研究人员从超过100TB的开源数据集中筛选并构建了3.4TB的高质量多行业分类中英文预训练数据集,其中包括1TB中文数据和2.4TB英文数据。该数据集涵盖了18个行业类别,并通过22种数据处理算子进行清洗和过滤,旨在提升大模型在行业应用中的性能。
当前挑战
IndustryCorpus_automobile数据集在构建过程中面临多重挑战。首先,行业数据的多样性和复杂性使得数据清洗和过滤变得极为困难,需通过传统中文转换、邮件移除、链接移除等多种规则化处理手段确保数据质量。其次,数据标注的准确性直接影响模型训练效果,为此研究人员为中文数据标注了12种标签,包括字母数字比例、平均行长度、语言置信度等。此外,数据去重和行业分类模型的构建也需耗费大量计算资源,以确保数据的唯一性和行业相关性。这些挑战的解决为行业模型的性能提升奠定了坚实基础。
常用场景
经典使用场景
在汽车行业,IndustryCorpus_automobile数据集被广泛应用于自然语言处理模型的训练与优化。该数据集通过提供大量高质量的汽车领域文本数据,支持文本生成、语义理解等任务的模型训练。特别是在汽车技术文档生成、用户评论分析、市场趋势预测等场景中,该数据集为模型提供了丰富的行业知识,显著提升了模型的准确性和实用性。
解决学术问题
IndustryCorpus_automobile数据集解决了汽车领域文本数据稀缺、质量参差不齐的学术研究问题。通过严格的清洗和标注流程,该数据集提供了高信噪比的文本资源,为研究人员在汽车行业自然语言处理任务中提供了可靠的数据支持。其多维度标注信息(如语言置信度、困惑度等)进一步推动了模型性能评估和优化的研究进展。
实际应用
在实际应用中,IndustryCorpus_automobile数据集为汽车行业的技术文档自动化生成、智能客服系统、市场分析报告等场景提供了强大的数据支撑。例如,基于该数据集训练的模型能够自动生成符合行业标准的维修手册,或从用户评论中提取有价值的产品改进建议,显著提升了企业的运营效率和客户满意度。
数据集最近研究
最新研究方向
在汽车行业智能化转型的背景下,IndustryCorpus_automobile数据集为大规模语言模型的训练提供了高质量的领域数据支持。该数据集通过多行业分类的中英文预训练数据,结合22种行业数据处理操作符,确保了数据的多样性和专业性。特别是在汽车行业领域,数据集的应用显著提升了模型在行业特定任务中的表现,如自动驾驶技术、智能客服和车辆故障诊断等。通过持续预训练、SFT和DPO训练,模型在客观性能上提升了20%,主观胜率达到了82%,为汽车行业的智能化应用奠定了坚实的数据基础。
以上内容由遇见数据集搜集并总结生成



