工业大数据关联表征学习方法实体表征向量数据集

Name: 工业大数据关联表征学习方法实体表征向量数据集
Creator: 北京航空航天大学
License: 暂无描述

国家基础学科公共科学数据中心2026-04-04 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=69ca9e20f17560281a739a9b&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集面向工业领域语义理解相关的研究与应用需求建设，聚焦工业实体的低维语义表征构建，针对工业场景中实体语义关联挖掘、知识图谱构建等下游任务的数据支撑缺口，为工业智能应用提供了高效可用的实体向量资源，对推动工业大数据关联表征技术落地、提升工业智能系统的语义理解能力具有重要意义，可广泛服务于学术研究、技术研发及工业级应用开发。数据集由 “工业大数据关联表征学习方法” 项目生成，数据来源为大规模工业文本语料（涵盖产品描述、用户评论、维修记录、技术文档等），通过项目提出的 ICA 工业大数据关联表征模型训练后，从模型权重的 embedding 层中提取实体数据表征向量，经标准化处理确保向量的低维稠密与语义丰富性。数据集为纯向量表征数据，不包含原始文本或图像内容，核心提供工业实体的语义嵌入。数据以 PyTorch 序列化格式（.pth）存储，采用 Python 字典结构，键为实体名称（str 类型），值为 100 维的 torch.Tensor 向量（float32 精度），整体为一级文件结构，仅含核心文件 entities.pth，便于快速接入与轻量级部署。数据体量方面，数据集共包含约 16 万组 “实体名称 - 向量” 键值对，总文件大小为 86.3 MB，向量维度统一为 100 维，精度达 float32，规模适配工业场景下游任务需求，支持直接在深度学习框架中加载使用。该数据集完全公开共享，可通过 torch.load () 函数快速读取，适用于语义相似度计算、工业知识图谱构建、智能客服工单分类等多种任务，为工业领域各类需要语义理解的智能应用提供坚实的数据支撑。

提供机构：

北京航空航天大学