five

IndustryCorpus_automobile|汽车行业数据集|数据处理数据集

收藏
huggingface2024-07-26 更新2024-12-12 收录
汽车行业
数据处理
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus_automobile
下载链接
链接失效反馈
资源简介:
该数据集是为了解决行业模型训练数据集存在的问题而构建的,包括数据量不足、质量低和缺乏领域专业性。通过应用22个行业数据处理操作符,从超过100TB的开放源数据集中筛选出3.4TB的高质量多行业分类中英文预训练数据集。筛选后的数据包括1TB的中文数据和2.4TB的英文数据,并对中文数据进行了12种类型的标签标注。数据集涵盖18个行业类别,包括医疗、教育、文学、金融等,并进行了基于规则和模型的过滤以及文档级别的去重。数据集被分割成18个行业的子数据集,当前描述的是汽车行业的子数据集。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-07-25
原始信息汇总

数据集概述

数据集描述

  • 语言: 中文和英文
  • 数据大小: 1TB中文数据,2.4TB英文数据
  • 任务类别: 文本生成
  • 行业分类: 18个行业类别,包括医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻等

数据处理

  • 数据来源: 从超过100TB的开放源数据集中筛选,包括WuDaoCorpora, BAAI-CCI, redpajama, SkyPile-150B
  • 数据处理操作: 应用22个行业数据处理操作符进行清洗和过滤
  • 规则过滤: 传统中文转换、电子邮件移除、IP地址移除、链接移除、Unicode修复等
  • 模型过滤: 使用行业分类语言模型,准确率80%
  • 数据去重: 使用MinHash文档级去重

数据标注

  • 中文数据标签: 包括字母数字比、平均行长度、语言置信度分数、最大行长度、困惑度、毒性字符比等12种标签

数据集性能验证

  • 模型训练: 进行了持续预训练、SFT和DPO训练
  • 性能提升: 目标性能提升20%,主观胜率82%

行业分类数据大小

行业类别 数据大小 (GB) 行业类别 数据大小 (GB)
编程 4.1 政治 326.4
法律 274.6 数学 5.9
教育 458.1 体育 442
金融 197.8 文学 179.3
计算机科学 46.9 新闻 564.1
技术 333.6 影视 162.1
旅游 82.5 医学 189.4
农业 41.6 汽车 40.8
情感 31.7 人工智能 5.6
总计 (GB) 3386.5

数据集分割

  • 分割方式: 将大数据集分割成18个行业的子数据集,当前为汽车行业子数据集
AI搜集汇总
数据集介绍
main_image_url
构建方式
IndustryCorpus_automobile数据集的构建过程体现了对高质量行业数据的严格筛选与处理。该数据集从超过100TB的开源数据集中,通过22种行业数据处理算子,清洗和过滤出3.4TB的高质量多行业分类中英文预训练数据。具体而言,中文数据经过12种标签的标注,包括字母数字比例、平均行长度、语言置信度评分等,以确保数据的多样性和专业性。此外,数据集还采用了基于模型的过滤和文档级去重技术,进一步提升了数据的精确性和实用性。
使用方法
IndustryCorpus_automobile数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以根据需求选择下载特定行业的子数据集,如汽车行业数据。数据集的中文部分提供了详细的标注信息,用户可以直接利用这些标注进行模型训练或评估。此外,数据集还支持继续预训练、SFT和DPO训练等多种训练方式,用户可以根据具体任务需求选择合适的训练策略。通过这种方式,数据集能够有效提升模型在特定行业领域的表现。
背景与挑战
背景概述
IndustryCorpus_automobile数据集是在企业智能化转型和创新发展的背景下应运而生的。随着大模型在各行各业的应用日益广泛,高质量行业数据的需求变得尤为迫切。然而,现有的行业模型训练数据集普遍存在数据量不足、质量低下以及缺乏领域专业知识等问题。为此,研究人员从超过100TB的开源数据集中筛选并构建了3.4TB的高质量多行业分类中英文预训练数据集,其中包括1TB中文数据和2.4TB英文数据。该数据集涵盖了18个行业类别,并通过22种数据处理算子进行清洗和过滤,旨在提升大模型在行业应用中的性能。
当前挑战
IndustryCorpus_automobile数据集在构建过程中面临多重挑战。首先,行业数据的多样性和复杂性使得数据清洗和过滤变得极为困难,需通过传统中文转换、邮件移除、链接移除等多种规则化处理手段确保数据质量。其次,数据标注的准确性直接影响模型训练效果,为此研究人员为中文数据标注了12种标签,包括字母数字比例、平均行长度、语言置信度等。此外,数据去重和行业分类模型的构建也需耗费大量计算资源,以确保数据的唯一性和行业相关性。这些挑战的解决为行业模型的性能提升奠定了坚实基础。
常用场景
经典使用场景
在汽车行业,IndustryCorpus_automobile数据集被广泛应用于自然语言处理模型的训练与优化。该数据集通过提供大量高质量的汽车领域文本数据,支持文本生成、语义理解等任务的模型训练。特别是在汽车技术文档生成、用户评论分析、市场趋势预测等场景中,该数据集为模型提供了丰富的行业知识,显著提升了模型的准确性和实用性。
解决学术问题
IndustryCorpus_automobile数据集解决了汽车领域文本数据稀缺、质量参差不齐的学术研究问题。通过严格的清洗和标注流程,该数据集提供了高信噪比的文本资源,为研究人员在汽车行业自然语言处理任务中提供了可靠的数据支持。其多维度标注信息(如语言置信度、困惑度等)进一步推动了模型性能评估和优化的研究进展。
实际应用
在实际应用中,IndustryCorpus_automobile数据集为汽车行业的技术文档自动化生成、智能客服系统、市场分析报告等场景提供了强大的数据支撑。例如,基于该数据集训练的模型能够自动生成符合行业标准的维修手册,或从用户评论中提取有价值的产品改进建议,显著提升了企业的运营效率和客户满意度。
数据集最近研究
最新研究方向
在汽车行业智能化转型的背景下,IndustryCorpus_automobile数据集为大规模语言模型的训练提供了高质量的领域数据支持。该数据集通过多行业分类的中英文预训练数据,结合22种行业数据处理操作符,确保了数据的多样性和专业性。特别是在汽车行业领域,数据集的应用显著提升了模型在行业特定任务中的表现,如自动驾驶技术、智能客服和车辆故障诊断等。通过持续预训练、SFT和DPO训练,模型在客观性能上提升了20%,主观胜率达到了82%,为汽车行业的智能化应用奠定了坚实的数据基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录