five

工业大数据关联表征学习方法实体表征向量数据集

收藏
国家基础学科公共科学数据中心2026-04-04 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69ca9e20f17560281a739a9b&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集面向工业领域语义理解相关的研究与应用需求建设,聚焦工业实体的低维语义表征构建,针对工业场景中实体语义关联挖掘、知识图谱构建等下游任务的数据支撑缺口,为工业智能应用提供了高效可用的实体向量资源,对推动工业大数据关联表征技术落地、提升工业智能系统的语义理解能力具有重要意义,可广泛服务于学术研究、技术研发及工业级应用开发。 数据集由 “工业大数据关联表征学习方法” 项目生成,数据来源为大规模工业文本语料(涵盖产品描述、用户评论、维修记录、技术文档等),通过项目提出的 ICA 工业大数据关联表征模型训练后,从模型权重的 embedding 层中提取实体数据表征向量,经标准化处理确保向量的低维稠密与语义丰富性。 数据集为纯向量表征数据,不包含原始文本或图像内容,核心提供工业实体的语义嵌入。数据以 PyTorch 序列化格式(.pth)存储,采用 Python 字典结构,键为实体名称(str 类型),值为 100 维的 torch.Tensor 向量(float32 精度),整体为一级文件结构,仅含核心文件 entities.pth,便于快速接入与轻量级部署。 数据体量方面,数据集共包含约 16 万组 “实体名称 - 向量” 键值对,总文件大小为 86.3 MB,向量维度统一为 100 维,精度达 float32,规模适配工业场景下游任务需求,支持直接在深度学习框架中加载使用。 该数据集完全公开共享,可通过 torch.load () 函数快速读取,适用于语义相似度计算、工业知识图谱构建、智能客服工单分类等多种任务,为工业领域各类需要语义理解的智能应用提供坚实的数据支撑。
提供机构:
北京航空航天大学
二维码
社区交流群
二维码
科研交流群
商业服务