LOCALIZE框架中使用的数据集
收藏arXiv2025-10-30 更新2025-10-31 收录
下载链接:
https://github.com/sensorlab/localize
下载链接
链接失效反馈官方服务:
资源简介:
LOCALIZE是一个低代码、以配置为主的框架,用于无线电定位,它通过减少初始设置和样板代码,加速模型开发和评估,使基于机器学习的无线电定位实验可重复、可访问。框架由三个主要部分组成:配置、工作流编排器和工件子系统。配置文件描述实验,工作流编排器读取配置并执行管道,工件子系统记录每个执行的输入、日志和输出。
LOCALIZE is a low-code, configuration-centric framework for radio localization. It accelerates model development and evaluation by reducing initial setup and boilerplate code, making machine learning-based radio localization experiments reproducible and accessible. The framework consists of three core components: configuration, workflow orchestrator, and artifact subsystem. Configuration files describe experiments; the workflow orchestrator reads the configurations and executes the pipeline, while the artifact subsystem records the inputs, logs, and outputs of each execution.
提供机构:
斯洛文尼亚约热夫·斯特凡研究所
创建时间:
2025-10-30
原始信息汇总
LOCALIZE 数据集概述
项目简介
LOCALIZE 是一个用于无线定位机器学习模型训练的低代码配置优先框架,通过声明式配置、工作流编排和版本化工件管理,实现无线电定位的自动化训练流程。
核心特性
- 低代码配置优先框架:以可重现性为默认操作模式,集成版本控制、执行隔离和透明工件跟踪
- 自动化训练流水线:为 CTW2019、CTW2020、Log-a-Tec、Lumos5G 和 UMU 数据集提供专用流水线
- 简化设置:通过 Conda 依赖管理实现最小化设置要求
- DVC 集成:利用 DVC 进行高效数据和模型版本控制,确保可重现性和可追溯性
- 自动化报告生成:通过标准化指标和报告程序实现一致可比较的评估
数据集支持
支持以下预配置版本化数据集:
- CTW2019
- CTW2020
- Log-a-Tec
- Lumos5G
- UMU
项目结构
artifacts/<dataset>/data/{raw,interim,splits,prepared}:包含数据准备流水线不同阶段的数据集configs/<dataset>/dvc.yaml:包含 DVC 工具的流水线指令configs/<dataset>/params.yaml:包含机器学习模型配置
使用方式
- 运行
./run_pipelines.sh为所有数据集构建所有模型 - 针对特定数据集:进入
configs/<dataset>目录,修改params.yaml中的模型参数,执行dvc repro --pull启动训练流程
许可证
采用 BSD-3 Clause 许可证
资助声明
该项目获得欧盟 Horizon Europe 框架计划资助(资助协议号:101096456,NANCY 项目),由智能网络与服务联合事业及其成员支持。
搜集汇总
数据集介绍

构建方式
在无线定位研究领域,数据集的构建质量直接影响机器学习模型的性能评估。LOCALIZE框架采用版本化预配置数据集策略,通过Git和DVC工具实现代码、配置与数据的同步版本控制。数据集构建过程严格遵循三阶段流程:数据准备阶段负责原始数据的解析与清洗,特征工程阶段进行标准化特征构造,数据划分阶段生成可复用的交叉验证分割。每个阶段均在新进程中独立执行,确保实验的确定性和可重现性。
特点
该数据集体系展现出多维度技术特征。在数据来源方面,整合了Lumos5G蜂窝定位、LOG-a-TEC蓝牙定位及CTW系列WiFi定位等多元无线信号数据。在技术架构上,采用统一的特征表示和评估标准,确保不同定位技术数据的可比性。数据集设计充分考虑了实验的可复现性需求,通过固化数据预处理流程和版本控制机制,有效避免了因数据处理差异导致的评估偏差。此外,模块化的数据集接口设计支持研究者快速集成新的定位数据集。
使用方法
基于配置优先的设计理念,数据集的使用遵循标准化操作流程。研究者通过编辑YAML配置文件即可完成数据集的切换与参数调整,无需编写额外代码。框架内置的工作流编排器自动执行从数据准备到模型评估的完整流水线,并缓存中间结果以加速迭代。对于高级用户,框架提供了清晰的扩展接口,支持自定义数据预处理模块的集成。所有实验过程均自动记录输入参数、运行环境和输出结果,确保实验的完全可追溯性。
背景与挑战
背景概述
随着机器学习在无线电定位服务中的广泛应用,确保实验的可复现性和结果的可比性成为关键挑战。LOCALIZE框架由斯洛文尼亚约瑟夫·斯蒂芬研究所的研究团队于2025年提出,旨在通过低代码配置优先的设计理念,构建标准化、可扩展的定位实验流程。该框架通过版本化代码、数据和配置,结合隔离执行与自动化工件记录,显著提升了定位研究中模型开发与评估的效率,为复杂环境下的高精度定位研究提供了方法论支撑。
当前挑战
无线电定位领域面临的核心挑战在于传统几何模型难以适应复杂环境下的信号衰减与多径效应,而数据驱动方法又受限于实验流程的碎片化与可复现性不足。在数据集构建过程中,需克服异构信号数据的标准化处理、跨设备测量的一致性保障,以及动态环境中基准真值标注的可靠性问题。此外,框架需平衡低代码操作的易用性与高级实验的灵活性,确保扩展组件能无缝集成至标准化流水线中。
常用场景
实际应用
在实际应用层面,该数据集支撑了室内导航系统的开发测试,为商场、医院等复杂环境提供精准定位解决方案。物流行业利用其评估货物追踪系统的性能,而智慧城市建设则依赖其测试基础设施监控的定位精度。应急响应系统通过该数据集验证在信号受限环境下的定位可靠性,为公共安全提供技术保障。这些应用场景充分体现了数据集在推动定位技术商业化过程中的核心价值。
衍生相关工作
基于该数据集衍生的经典工作包括多模态信号融合定位算法的系统比较研究,以及自动化机器学习在无线定位中的规模化应用探索。研究人员利用其标准化管道开发了新型深度学习架构,同时在可复现机器学习方法论方面产生了重要理论贡献。该数据集还催生了针对特定环境优化的定位模型系列,为后续研究提供了丰富的技术参考和性能基准。
以上内容由遇见数据集搜集并总结生成



