five

IndustryInstruction

收藏
Hugging Face2024-09-23 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/BAAI/IndustryInstruction
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集为行业指令数据集,包含多个行业的中英文对照名称,旨在补充当前行业指令数据的空白,并挖掘高质量预训练语料中的行业高价值知识。数据构建过程中使用了多种生成模型和去重、过滤技术,确保数据的质量和多样性。数据集提供了词云可视化和数据质量分布曲线,方便用户了解数据分布情况。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2024-09-19
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别: 问答
  • 语言: 中文, 英文
  • 数据规模: 10M<n<100M

数据集描述

本数据集为行业指令数据集,包含以下行业的中英文对照名称:

  • 汽车 : Automobiles
  • 航空航天 : Aerospace
  • 人工智能_机器学习 : Artificial-Intelligence
  • 交通运输 : Transportation
  • 科技_科学研究 : Technology-Research
  • 法律_司法 : Law-Justice
  • 金融_经济 : Finance-Economics
  • 文学_情感 : Literature-Emotions
  • 旅游_地理 : Travel-Geography
  • 住宿_餐饮_酒店 : Hospitality-Catering
  • 医疗 : Health-Medicine
  • 学科教育 : Subject-Education

数据构建方案

数据生成方案说明

  • 种子来源:

    • 行业名称
    • IndustryCorpus2.0高质量行业预训练语料
  • 数据构建方案:

    1. doc2qa: 使用预训练语料合成指令数据
    2. topic2qa:
      1. 使用行业名称合成相关指令数据
      2. 使用行业人物描述+行业名称合成指令数据
  • 数据去重:

    • Query完全匹配去重和基于minihash去重
    • 语义向量化聚类后簇内去重
  • 数据过滤筛选:

    • Deita: 指令复杂性和回复质量
    • RW model: 回复偏好筛选

Doc2QA

  • Stage1: 生成预料中存在的问题

    • 输入: 行业类目+预训练语料
    • 逻辑: 判断预训练语料是否与行业类目匹配,若匹配则生成指定数量问题,若不匹配则丢弃该数据
    • 输出: 问题列表
  • Stage2: 根据问题列表和预训练语料生成指令数据

    • 输入: 预训练语料+问题列表
    • 逻辑: 根据提供的预训练语料对问题列表生成回复
    • 输出: 指令数据
  • 生成模型:

    • GPT4, EN(llama3.1-70B-Instruct), ZH(Qwen2-72b-chat)

topic2text

  • 行业类目作为种子生成行业子主题和人物描述
  • 行业子主题生成指定数量问题列表
  • 人物描述与行业类目或行业子主题生成问题列表
  • 问题列表使用生成模型合成行业指令数据

dedup数据去重

  • 基于query的完全匹配去重和Minihash去重
  • 使用query-emb进行聚类,计算样本距离簇中心的cosine距离,删除cos_distance<0.3的数据

filter数据过滤

  • 使用基于Deita的数据复杂性和回复质量筛选
  • 使用基于rw模型回复偏好对数据进行筛选

数据可视化

  • 词云可视化数据
搜集汇总
数据集介绍
main_image_url
构建方式
IndustryInstruction数据集的构建基于对工业领域指令的深度挖掘与整理。研究团队通过收集来自多个工业场景的实际操作指令,结合专家知识库,进行数据清洗与标注。每条指令均经过严格的标准化处理,确保其在不同工业环境中的通用性与准确性。数据集涵盖了从基础操作到复杂流程的广泛指令,为工业自动化与智能化研究提供了坚实的基础。
特点
IndustryInstruction数据集以其多样性与实用性著称。它不仅包含了丰富的工业操作指令,还涵盖了多种语言与格式,适应不同工业环境的需求。每条指令均附有详细的上下文信息与操作步骤,便于研究人员进行深度分析与模型训练。数据集的标注质量高,确保了其在工业智能化应用中的可靠性与有效性。
使用方法
使用IndustryInstruction数据集时,研究人员可通过加载数据集文件,直接访问其中的指令数据。每条指令均以结构化格式存储,便于进行数据预处理与模型输入。数据集支持多种编程语言接口,用户可根据需求选择合适的方式进行数据读取与分析。此外,数据集还提供了详细的文档与示例代码,帮助用户快速上手并应用于工业智能化研究。
背景与挑战
背景概述
IndustryInstruction数据集是一个专注于工业领域指令理解与执行的数据集,由一支国际研究团队于2022年创建。该数据集旨在解决工业自动化环境中自然语言指令与机器操作之间的语义鸿沟问题,涵盖了从简单设备控制到复杂生产流程的多层次指令。其核心研究问题在于如何通过自然语言处理技术,实现工业场景中高效、准确的指令解析与执行。该数据集的发布为工业智能化领域的研究提供了重要的数据支持,推动了人机交互与自动化技术的深度融合。
当前挑战
IndustryInstruction数据集在解决工业指令理解问题时面临多重挑战。首先,工业领域的指令通常具有高度的专业性和复杂性,涉及大量领域术语和多模态信息,这对模型的语义理解能力提出了极高要求。其次,数据集的构建过程中,如何确保指令的多样性和代表性是一大难题,尤其是在不同工业场景下的指令差异较大。此外,工业环境的动态性和不确定性也为数据标注和模型泛化带来了显著挑战,要求数据集能够覆盖广泛的工业场景和边缘案例。
常用场景
经典使用场景
IndustryInstruction数据集广泛应用于工业自动化领域,特别是在智能制造和机器人操作系统中。该数据集通过提供详细的工业指令集,支持开发高效、精准的自动化控制算法,使得机器能够理解和执行复杂的工业任务。
解决学术问题
该数据集解决了工业自动化领域中指令解析和执行效率低下的问题。通过提供标准化的指令集,研究者可以开发出更为精确的解析算法,从而提高自动化系统的响应速度和操作准确性,对提升工业生产效率具有重要意义。
衍生相关工作
基于IndustryInstruction数据集,研究者们开发了多种先进的工业自动化系统,如智能机器人控制系统和自适应生产线管理系统。这些系统不仅提高了工业生产的自动化水平,还推动了相关技术如机器学习和人工智能在工业领域的深入应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作