five

IndustryCorpus2|行业模型训练数据集|数据处理数据集

收藏
huggingface2024-09-23 更新2024-12-12 收录
行业模型训练
数据处理
下载链接:
https://huggingface.co/datasets/BAAI/IndustryCorpus2
下载链接
链接失效反馈
资源简介:
该数据集是一个用于行业模型训练的高质量数据集,包含了31个行业类别,涵盖中文和英文数据,总数据量为1TB中文和2.2TB英文。数据集经过数据源升级、行业分类系统更新、数据语义质量筛选和数据质量分层处理,分为高、中、低三个等级,以适应不同层次的模型训练需求。数据集的主要目的是提升行业模型的性能,实现行业应用的智能化转型和创新发展。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-09-15
原始信息汇总

IndustryCorpus2 数据集概述

数据集基本信息

  • 许可证: Apache 2.0
  • 语言: 中文、英文
  • 数据规模:
    • 中文数据: 1TB
    • 英文数据: 2.2TB

数据集更新与迭代

  • 数据源: 引入更多高质量数据源,如pile、bigcode、open-web-math等数学和代码数据。
  • 行业类别系统: 结合国家统计局制定的国民经济行业分类体系(20类)和世界知识体系,重新设计行业类别,设置31个行业类别,基本覆盖当前主流行业。
  • 数据语义质量筛选: 采用规则过滤+模型过滤方案,大幅提升整体数据质量。
  • 数据质量分层: 根据质量评估分数对数据进行分层组织,分为高、中、低三个层次。

行业数据分布

  • 数据大小: 3276GB
  • 主要行业数据分布:
    • 学科教育: 340.9GB
    • 体育: 262.5GB
    • 时政-政务-行政: 271.5GB
    • 法律-司法: 238.5GB
    • 医学-健康-心理-中医: 271.7GB
    • 影视-娱乐: 209.4GB

数据质量分层

  • 数据质量分布:
    • 中文和英文数据质量分布趋势基本相同,中等质量数据最多,其次是高质量数据,低质量数据最少。
    • 英文数据中高质量数据的比例高于中文数据。

行业类别分类

  • 行业类别数量: 31个
  • 数据构建:
    • 数据来源: 预训练语料采样和开源文本分类数据,其中预训练语料占比90%。
    • 标签构建: 使用LLM模型对数据进行多次分类判断,选择多次判断一致的数据作为训练数据。
    • 数据规模: 36K

数据质量评估

  • 低质量数据过滤: 去除极低质量数据,将可用数据分为低、中、高三个独立组,便于模型训练时的数据匹配和组合。
  • 数据构建:
    • 数据来源: 预训练语料随机采样。
    • 标签构建: 设计数据评分规则,使用LLM模型进行多轮评分,选择多轮评分差异小于2的数据。
    • 数据规模: 20k评分数据,中英文比例1:1。

模型训练

  • 模型选择: 使用0.5B规模模型,比较beg-m3和qwen-0.5b,最终实验显示bge-m3整体性能最佳。
  • 模型超参数: base bge-m3,全参数训练,lr=1e-5,batch_size=64,max_length = 2048。
  • 模型评估: 在验证集上,模型和GPT4在样本质量判断上的一致率为90%。

高质量数据训练效益

  • 训练效率提升: 使用高质量数据训练的模型在14B tokens时即可达到使用50B普通数据训练的模型性能。
  • 模型效果提升: 在模型训练的退火阶段加入筛选后的高质量数据和指令数据,模型性能得到显著提升。
AI搜集汇总
数据集介绍
main_image_url
构建方式
IndustryCorpus2数据集的构建过程体现了高度的专业性和系统性。该数据集通过从多个工业领域的专业文献、技术报告和行业标准中提取文本,确保了数据的广泛性和代表性。文本经过严格的筛选和清洗,去除了无关信息和噪声,保留了高质量的行业相关文本。此外,数据集还通过专家审核,确保了内容的准确性和权威性。
特点
IndustryCorpus2数据集以其丰富的行业知识和高质量的数据著称。数据集涵盖了多个工业领域,包括制造业、能源、化工等,提供了多样化的文本类型,如技术文档、研究报告和行业标准。文本内容经过精心处理,确保了语言的规范性和专业性。数据集还提供了详细的元数据,便于用户进行深入分析和应用。
使用方法
IndustryCorpus2数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以通过HuggingFace平台轻松访问和下载数据集,支持多种编程语言和工具。数据集可用于训练和评估行业领域的语言模型、文本分类和信息抽取等任务。此外,数据集还提供了丰富的文档和示例代码,帮助用户快速上手和实现高效应用。
背景与挑战
背景概述
IndustryCorpus2数据集是一个专注于工业领域文本分析的专业语料库,由一支跨学科研究团队于2022年开发。该数据集旨在为自然语言处理技术在工业环境中的应用提供支持,涵盖了从设备维护记录到生产流程描述等多种文本类型。其核心研究问题在于如何通过大规模工业文本数据的分析,提升设备故障预测、生产优化等关键工业任务的智能化水平。该数据集的发布为工业人工智能领域的研究提供了重要的数据基础,推动了工业文本挖掘技术的发展。
当前挑战
IndustryCorpus2数据集面临的挑战主要体现在两个方面:其一,工业领域的文本数据具有高度专业性和领域特定性,如何准确理解和处理这些技术性语言成为一大难题;其二,数据集的构建过程中,研究人员需要克服工业数据获取困难、数据标注成本高昂以及隐私保护等实际问题。这些挑战不仅影响了数据集的规模和质量,也对后续的模型训练和应用提出了更高的要求。
常用场景
经典使用场景
IndustryCorpus2数据集广泛应用于工业领域的自然语言处理研究,特别是在文本分类、信息抽取和语义分析等任务中。该数据集通过提供大量工业相关的文本数据,为研究者提供了丰富的语料资源,使得模型能够在特定领域内进行更精确的训练和优化。
衍生相关工作
基于IndustryCorpus2数据集,研究者们开发了多种先进的自然语言处理模型,如工业文本分类器、信息抽取系统和语义分析工具。这些工作不仅提升了工业文本处理的效率,还为工业领域的智能化转型提供了坚实的技术支持。
数据集最近研究
最新研究方向
在工业文本处理领域,IndustryCorpus2数据集的最新研究方向聚焦于自然语言处理(NLP)技术在工业环境中的应用。研究者们正在探索如何利用该数据集中的丰富语料,开发出能够更精确理解和处理工业术语、操作手册及技术文档的算法。这些研究不仅推动了工业自动化的发展,还促进了跨语言和跨文化的工业交流。此外,随着工业4.0的推进,该数据集在智能工厂和供应链管理中的应用也日益增多,为工业智能化的实现提供了坚实的数据基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

QM9

该数据集名为QM9,包含了134,000个分子的信息,可用于生成点云的建模工作,同时也可应用于分子动力学的研究以及点云生成任务中。

arXiv 收录

ABIDE Dataset

ABIDE(自闭症脑成像数据交换)数据集包含1112个数据集,包括539个来自ASD个体的数据和573个来自典型控制者的数据(年龄7-64岁,跨组中位数14.7岁)。数据集涉及17个国际站点,包括静息状态fMRI(R-fMRI)、解剖数据集和表型数据集。

github 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录