five

IndustryCorpus2|行业模型训练数据集|数据处理数据集

收藏
huggingface2024-09-23 更新2024-12-12 收录
行业模型训练
数据处理
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus2
下载链接
链接失效反馈
资源简介:
该数据集是一个用于行业模型训练的高质量数据集,包含了31个行业类别,涵盖中文和英文数据,总数据量为1TB中文和2.2TB英文。数据集经过数据源升级、行业分类系统更新、数据语义质量筛选和数据质量分层处理,分为高、中、低三个等级,以适应不同层次的模型训练需求。数据集的主要目的是提升行业模型的性能,实现行业应用的智能化转型和创新发展。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-09-15
原始信息汇总

IndustryCorpus2 数据集概述

数据集基本信息

  • 许可证: Apache 2.0
  • 语言: 中文、英文
  • 数据规模:
    • 中文数据: 1TB
    • 英文数据: 2.2TB

数据集更新与迭代

  • 数据源: 引入更多高质量数据源,如pile、bigcode、open-web-math等数学和代码数据。
  • 行业类别系统: 结合国家统计局制定的国民经济行业分类体系(20类)和世界知识体系,重新设计行业类别,设置31个行业类别,基本覆盖当前主流行业。
  • 数据语义质量筛选: 采用规则过滤+模型过滤方案,大幅提升整体数据质量。
  • 数据质量分层: 根据质量评估分数对数据进行分层组织,分为高、中、低三个层次。

行业数据分布

  • 数据大小: 3276GB
  • 主要行业数据分布:
    • 学科教育: 340.9GB
    • 体育: 262.5GB
    • 时政-政务-行政: 271.5GB
    • 法律-司法: 238.5GB
    • 医学-健康-心理-中医: 271.7GB
    • 影视-娱乐: 209.4GB

数据质量分层

  • 数据质量分布:
    • 中文和英文数据质量分布趋势基本相同,中等质量数据最多,其次是高质量数据,低质量数据最少。
    • 英文数据中高质量数据的比例高于中文数据。

行业类别分类

  • 行业类别数量: 31个
  • 数据构建:
    • 数据来源: 预训练语料采样和开源文本分类数据,其中预训练语料占比90%。
    • 标签构建: 使用LLM模型对数据进行多次分类判断,选择多次判断一致的数据作为训练数据。
    • 数据规模: 36K

数据质量评估

  • 低质量数据过滤: 去除极低质量数据,将可用数据分为低、中、高三个独立组,便于模型训练时的数据匹配和组合。
  • 数据构建:
    • 数据来源: 预训练语料随机采样。
    • 标签构建: 设计数据评分规则,使用LLM模型进行多轮评分,选择多轮评分差异小于2的数据。
    • 数据规模: 20k评分数据,中英文比例1:1。

模型训练

  • 模型选择: 使用0.5B规模模型,比较beg-m3和qwen-0.5b,最终实验显示bge-m3整体性能最佳。
  • 模型超参数: base bge-m3,全参数训练,lr=1e-5,batch_size=64,max_length = 2048。
  • 模型评估: 在验证集上,模型和GPT4在样本质量判断上的一致率为90%。

高质量数据训练效益

  • 训练效率提升: 使用高质量数据训练的模型在14B tokens时即可达到使用50B普通数据训练的模型性能。
  • 模型效果提升: 在模型训练的退火阶段加入筛选后的高质量数据和指令数据,模型性能得到显著提升。
AI搜集汇总
数据集介绍
main_image_url
构建方式
IndustryCorpus2数据集的构建过程体现了高度的专业性和系统性。该数据集通过从多个工业领域的专业文献、技术报告和行业标准中提取文本,确保了数据的广泛性和代表性。文本经过严格的筛选和清洗,去除了无关信息和噪声,保留了高质量的行业相关文本。此外,数据集还通过专家审核,确保了内容的准确性和权威性。
特点
IndustryCorpus2数据集以其丰富的行业知识和高质量的数据著称。数据集涵盖了多个工业领域,包括制造业、能源、化工等,提供了多样化的文本类型,如技术文档、研究报告和行业标准。文本内容经过精心处理,确保了语言的规范性和专业性。数据集还提供了详细的元数据,便于用户进行深入分析和应用。
使用方法
IndustryCorpus2数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以通过HuggingFace平台轻松访问和下载数据集,支持多种编程语言和工具。数据集可用于训练和评估行业领域的语言模型、文本分类和信息抽取等任务。此外,数据集还提供了丰富的文档和示例代码,帮助用户快速上手和实现高效应用。
背景与挑战
背景概述
IndustryCorpus2数据集是一个专注于工业领域文本分析的专业语料库,由一支跨学科研究团队于2022年开发。该数据集旨在为自然语言处理技术在工业环境中的应用提供支持,涵盖了从设备维护记录到生产流程描述等多种文本类型。其核心研究问题在于如何通过大规模工业文本数据的分析,提升设备故障预测、生产优化等关键工业任务的智能化水平。该数据集的发布为工业人工智能领域的研究提供了重要的数据基础,推动了工业文本挖掘技术的发展。
当前挑战
IndustryCorpus2数据集面临的挑战主要体现在两个方面:其一,工业领域的文本数据具有高度专业性和领域特定性,如何准确理解和处理这些技术性语言成为一大难题;其二,数据集的构建过程中,研究人员需要克服工业数据获取困难、数据标注成本高昂以及隐私保护等实际问题。这些挑战不仅影响了数据集的规模和质量,也对后续的模型训练和应用提出了更高的要求。
常用场景
经典使用场景
IndustryCorpus2数据集广泛应用于工业领域的自然语言处理研究,特别是在文本分类、信息抽取和语义分析等任务中。该数据集通过提供大量工业相关的文本数据,为研究者提供了丰富的语料资源,使得模型能够在特定领域内进行更精确的训练和优化。
衍生相关工作
基于IndustryCorpus2数据集,研究者们开发了多种先进的自然语言处理模型,如工业文本分类器、信息抽取系统和语义分析工具。这些工作不仅提升了工业文本处理的效率,还为工业领域的智能化转型提供了坚实的技术支持。
数据集最近研究
最新研究方向
在工业文本处理领域,IndustryCorpus2数据集的最新研究方向聚焦于自然语言处理(NLP)技术在工业环境中的应用。研究者们正在探索如何利用该数据集中的丰富语料,开发出能够更精确理解和处理工业术语、操作手册及技术文档的算法。这些研究不仅推动了工业自动化的发展,还促进了跨语言和跨文化的工业交流。此外,随着工业4.0的推进,该数据集在智能工厂和供应链管理中的应用也日益增多,为工业智能化的实现提供了坚实的数据基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Global Volcano Database

全球火山数据库包含有关全球火山的信息,包括火山的位置、类型、历史喷发记录、海拔高度等详细数据。该数据集旨在为地质学家、环境科学家和应急管理机构提供有关火山活动的全面信息。

volcano.si.edu 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录