无线定位模型元数据数据集
收藏arXiv2025-05-20 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.13343v1
下载链接
链接失效反馈官方服务:
资源简介:
无线定位模型元数据数据集由斯洛文尼亚卢布尔雅那的约瑟夫·斯蒂芬研究所创建,该数据集包含22个在不同数据集上训练的无线定位模型元数据,这些模型被集成到一个基于Neo4j的知识图谱中,包含113个节点和199个关系。该数据集旨在为机器学习模型的元数据提供一个结构化的、机器可读的表示方式,并支持集成到知识图谱中进行更好的组织和查询,从而扩展了机器学习模型元数据的用例。
The wireless localization model metadata dataset was created by the Jožef Stefan Institute in Ljubljana, Slovenia. This dataset contains metadata of 22 wireless localization models trained on different datasets, and these models have been integrated into a Neo4j-based knowledge graph consisting of 113 nodes and 199 relationships. This dataset aims to provide a structured, machine-readable representation for the metadata of machine learning models, supports integration into knowledge graphs for better organization and querying, and thereby expands the use cases of machine learning model metadata.
提供机构:
斯洛文尼亚卢布尔雅那的约瑟夫·斯蒂芬研究所
创建时间:
2025-05-20
搜集汇总
数据集介绍

构建方式
无线定位模型元数据数据集的构建基于机器可读的ML模型元数据(MRM3)框架,通过定义结构化的元数据模式,整合了模型训练、推理、数据集元数据等多维度信息。该数据集包含22个在不同无线数据集上训练的模型,通过Neo4j知识图谱进行组织,形成包含113个节点和199个关系的知识网络。数据收集遵循统一的json模式,确保元数据的机器可读性和一致性。
特点
该数据集的核心特点在于其高度结构化的元数据表示和知识图谱集成。它不仅涵盖了传统的模型性能指标(如精度、延迟),还创新性地引入了能耗和碳足迹等可持续性指标。通过Neo4j知识图谱,数据集实现了模型、数据集和架构之间的语义关联,支持复杂的多条件查询。特别值得注意的是,该数据集针对无线定位领域,包含了4种不同架构模型在4个无线数据集上的完整训练和推理元数据。
使用方法
数据集的使用主要通过Neo4j知识图谱的Cypher查询语言实现。用户可执行结构化查询来获取特定条件下的最优模型,例如按能耗排序的定位模型选择。数据集提供的json模式可作为元数据收集模板,确保新模型能无缝集成到现有知识图谱中。典型应用场景包括:边缘计算中的模型选择、训练策略优化分析,以及可持续AI研究中的能耗效率评估。数据集还支持与MLOps系统集成,实现自动化模型部署和更新。
背景与挑战
背景概述
无线定位模型元数据数据集(MRM3)由斯洛文尼亚Jožef Stefan研究所的Andrej Čop等研究人员于2025年提出,旨在解决机器学习模型元数据缺乏结构化表示的行业痛点。该研究基于Hugging Face等平台现有模型卡片存在的问题——非结构化、不可机读、缺乏环境指标等,创新性地提出了基于知识图谱的元数据表示框架。通过定义包含训练参数、能效指标、架构特征等12类核心要素的标准化分类体系,并构建包含113个节点、199种关系的Neo4j知识图谱,该数据集显著提升了模型选择、部署优化的效率,特别适用于5G/6G网络边缘计算等对能效敏感的领域。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,传统无线定位模型选择仅依赖准确率指标,难以综合评估计算复杂度、碳排放等关键因素,MRM3通过结构化元数据实现了多维度模型比对;在构建过程层面,研究团队需解决异构数据整合难题——包括统一22个模型涉及的4种架构、4类数据集的差异化指标,开发支持Cypher查询的Neo4j转换接口,并设计兼顾扩展性的JSON Schema以适配不同领域模型。实验表明,模型检索响应时间需控制在7毫秒内,这对知识图谱的拓扑优化提出了严格要求。
常用场景
经典使用场景
无线定位模型元数据数据集(MRM3)在机器学习模型管理与优化领域展现了其经典应用价值。该数据集通过结构化元数据与知识图谱技术,为研究人员提供了系统化的模型比较与选择平台。在无线定位领域,不同架构模型(如随机森林、XGBoost等)在4个标准数据集上的训练与推理数据被整合为包含113个节点、199个关系的知识图谱,支持基于性能指标、能耗和计算复杂度的多维度模型检索。
衍生相关工作
该研究催生了多个延伸方向:基于本体论扩展的跨领域模型元数据框架(如DocML)、支持语义版本控制的模型仓库(参考Hugging Face改进研究),以及整合MLMD库的全生命周期元数据追踪系统。其知识图谱构建方法论更被应用于生物信息学等垂直领域,形成了如OWL2本体转换工具链等衍生成果。
数据集最近研究
最新研究方向
随着机器学习模型在无线定位等领域的广泛应用,模型元数据的结构化与可机读性成为研究热点。MRM3数据集通过构建基于知识图谱的元数据表示框架,为模型选择、部署和优化提供了系统化解决方案。当前研究聚焦于将环境影响因素(如能耗与碳足迹)纳入元数据体系,并探索知识图谱在边缘计算场景下的应用潜力,特别是在5G/6G网络和物联网设备的低功耗需求场景中。这一方向不仅推动了机器学习模型全生命周期的可持续性评估,也为分布式智能系统的自动化编排提供了新的技术路径。
相关研究论文
- 1MRM3: Machine Readable ML Model Metadata斯洛文尼亚卢布尔雅那的约瑟夫·斯蒂芬研究所 · 2025年
以上内容由遇见数据集搜集并总结生成



