five

CAEZ-5G

收藏
arXiv2025-12-12 更新2025-12-13 收录
下载链接:
https://caez.ethz.ch
下载链接
链接失效反馈
官方服务:
资源简介:
CAEZ-5G是由苏黎世联邦理工学院和NVIDIA联合创建的5G NR信道状态信息(CSI)数据集,包含室内实验室、户外校园和设备分类三个子集。数据集通过商用5G硬件和软件定义测试床采集,涵盖密集空间覆盖的实时上行链路CSI数据,总样本量超过70万条,带宽达100MHz。数据采集过程采用标准化5G协议栈,结合高精度红外定位系统标记用户设备位置。该数据集旨在支持6G无线系统中基于CSI的感知算法开发,如神经定位、信道制图和设备分类,解决真实环境下的算法验证难题,推动下一代通信系统的感知-通信一体化研究。

CAEZ-5G is a 5G NR Channel State Information (CSI) dataset jointly created by ETH Zurich and NVIDIA. It includes three subsets: indoor laboratory, outdoor campus, and device classification. The dataset is collected via commercial 5G hardware and software-defined testbeds, covering real-time uplink CSI data with dense spatial coverage. It has over 700,000 total samples and supports a bandwidth of 100 MHz. During data collection, a standardized 5G protocol stack was used, combined with a high-precision infrared positioning system to mark the positions of user equipment (UE). This dataset aims to support the development of CSI-based perception algorithms for 6G wireless systems, such as neural positioning, channel mapping, and device classification. It addresses the challenge of algorithm verification in real-world environments and promotes research on integrated sensing and communication (ISAC) for next-generation communication systems.
提供机构:
苏黎世联邦理工学院, NVIDIA
创建时间:
2025-12-12
原始信息汇总

CAEZ: CSI Acquisition at ETH Zurich 数据集概述

数据集简介

  • 数据集全称:CAEZ: CSI Acquisition at ETH Zurich
  • 数据集简称:CAEZ
  • 全称释义:CSI Acquisition at ETH Zurich
  • 核心内容:发布来自5G测试床[1]和Wi-Fi测试床[2]的信道状态信息(CSI)测量数据。
  • 子数据集
    • CAEZ-5G:来自5G测试床的CSI数据集。
    • CAEZ-WIFI:来自Wi-Fi测试床的CSI数据集(即将发布)。

CAEZ-5G 数据集详情

CAEZ-5G包含三个真实世界的宽带多天线多O-RU(开放RAN射频单元)CSI数据集,采集自5G NR上行链路信道,具体为物理上行共享信道(PUSCH)。

1. CAEZ-5G-INDOOR

  • 环境:室内实验室/办公室环境。
  • 测量区域:3.5m x 3.5m的正方形区域(位于实验桌之间)。
  • O-RU布置:位于测量区域的角落。
  • 地面实况追踪:使用四个WorldViz PPT(精密位置追踪)摄像头围绕测量区域,两个摄像头位于测量区域上方,用于提供UE位置追踪的地面实况。
  • 测量详情
    • 持续时间:1小时47分钟
    • 样本数量:338,981
    • UE类型:Quectel RMU500EK
    • 载体平台:搭载树莓派和Quectel 5G调制解调器的iRobot Create 3机器人平台
    • 位置追踪:是(WorldViz PPT)
    • PUSCH传输:每20毫秒
  • 采集过程:机器人采用随机航点导航控制。机器人上安装四个WorldViz PPT标记以实现位置和旋转追踪。CSI采集期间有一名测量操作员在实验室/办公室内,有时会穿过测量区域。
  • 应用:支持高精度神经UE定位,在测试集上达到0.6厘米的平均绝对误差。

2. CAEZ-5G-OUTDOOR

  • 环境:室外校园庭院环境。
  • 测量区域:苏黎世联邦理工学院电气工程校园庭院内10m x 10m的正方形区域,周围有多栋建筑、树木和其他障碍物。
  • O-RU布置:位于测量区域的角落。
  • 地面实况追踪:使用六个WorldViz PPT摄像头围绕测量区域,用于提供UE位置追踪的地面实况。
  • 测量详情
    • 持续时间:1小时38分钟
    • 样本数量:303,189
    • UE类型:Samsung Galaxy S23
    • 载体平台:搭载机械臂的自定义机器人平台
    • 位置追踪:是(WorldViz PPT)
    • PUSCH传输:每20毫秒
  • 采集过程:三星Galaxy S23安装在自定义机器人平台顶部的机械臂上。机器人采用手动控制。机械臂(保持固定)上安装四个WorldViz PPT标记以追踪所安装UE的位置和方向。CSI采集期间有两名测量操作员在测量区域附近。
  • 应用:支持高精度神经UE定位(5.7厘米平均绝对误差)和真实世界坐标下的信道图表绘制(73厘米平均绝对误差)。

3. CAEZ-5G-DEV-CLASS

  • 目的:用于设备分类任务。
  • 环境:联合实验室/办公室空间,约4m x 4m(位于实验桌之间),与CAEZ-5G-INDOOR类似。
  • O-RU布置:位于测量区域的角落。
  • 地面实况追踪:无(未使用WorldViz PPT摄像头)。
  • 测量详情
    • 持续时间:每个UE进行6次测量,每次为2分钟 + 30秒
    • 样本数量:83,619(第一天) + 21,805(第二天)
    • UE类型:六种商用现货(COTS)UE(见页面图示)
    • 载体平台:转台 + 人工操作员
    • 位置追踪:否
    • PUSCH传输:每10毫秒
  • 采集过程:包含六次连续测量,每次分别使用六种UE之一。每个UE的测量协议包括以下四个步骤:(i) 在预定义的固定位置使用转台旋转,(ii) 随机人工行走,(iii) 在同一位置额外旋转,(iv) 次日再次随机人工行走。第二天(次日)的测量仅包含30秒的随机人工行走,用于测试。次日评估数据集不仅记录了不同的UE位置,而且环境略有变化(例如,椅子和设备被移动)。
  • 应用:支持高精度、位置无关的射频指纹识别(RFFI)设备分类,达到99%准确率(同日)和95%准确率(次日)。

测试床信息(CAEZ-5G)

  • 名称:ETH Zurich 5G NR Testbed
  • 基础:基于NVIDIA ARC-OTA(Aerial RAN CoLab Over-the-Air)。
  • 系统描述:具有COTS UE和四个COTS O-RU的全栈软件定义5G系统。其中一个O-RU用于5G通信,另外三个作为被动监听器运行。
  • 频段:完整的瑞士私有5G频段,即5G NR N78频段的100MHz,中心频率为3.45GHz。
  • 连接:所有组件(除UE外)通过光纤交换机连接。
  • 服务器:Supermicro NVIDIA MGX GH200服务器运行全栈5G系统,包括NVIDIA Aerial L1、OAI L2和OAI核心网络。
  • 同步:采用具有GNSS(全球导航卫星系统)时间参考的PTP(精密时间协议)主时钟同步光纤网络。

CAEZ-WIFI 数据集

  • 状态:即将发布。

数据下载与使用

  • 许可协议:下载任何CAEZ数据集即表示同意CAEZ Dataset License v1.0的条款。
  • 下载链接
    • CAEZ-5G-INDOOR:https://caez.ethz.ch
    • CAEZ-5G-OUTDOOR:https://caez.ethz.ch
    • CAEZ-5G-DEV-CLASS:https://caez.ethz.ch
    • 预处理的CSI特征:https://caez.ethz.ch
  • 数据格式:CAEZ-5G数据集以压缩的tar.zstd存档形式提供,包含来自NVIDIA PyAerial流水线的CSI数据和来自WorldViz PPT系统的地面实况UE位置日志。

数据集许可

  • 许可名称:CAEZ Dataset License v1.0
  • 许可条款:允许商业和非商业使用、修改和创建衍生作品,但要求署名并禁止重新分发原始数据集。访问或使用数据集即表示同意此许可条款,并承认完全自行承担使用数据集的风险。

致谢

  • CAEZ-5G:作者感谢NVIDIA对此研究的赞助。
  • CAEZ-WiFi:作者感谢Channel Charting as a Service (CHASER) Project对CAEZ-WiFi研究的赞助。
  • 其他:作者感谢Torben Kölle提供的网站管理支持。

参考文献

  1. R. Wiesmayr, F. Zumegen, S. Taner, C. Dick, and C. Studer, "CSI-based user positioning, channel charting, and device classification with an NVIDIA 5G testbed," in Asilomar Conf. Signals, Syst., Comput., Oct. 2025.
  2. F. Zumegen and C. Studer, "A software-defined and distributed Wi-Fi channel-state information acquisition testbed," in Proc. Asilomar Conf. Signals, Syst., Comput., Oct. 2024.

引用要求

  • 使用CAEZ-5G数据集和/或模拟代码:必须引用指定文献。
  • 使用CAEZ-WIFI数据集和/或模拟代码:必须引用指定文献。
搜集汇总
数据集介绍
main_image_url
构建方式
在无线通信领域,高精度信道状态信息(CSI)的获取对于推进感知算法的发展至关重要。CAEZ-5G数据集的构建依托于苏黎世联邦理工学院部署的标准化5G NR测试平台,该平台基于NVIDIA Aerial RAN CoLab Over-the-Air(ARC-OTA)软件定义系统,并采用商用现成硬件。数据采集过程在授权频谱的3.45 GHz频段进行,利用四个多天线开放式无线接入单元同步记录上行链路CSI。室内与室外场景分别通过机器人平台搭载用户设备,结合世界视觉精密位置跟踪系统获取厘米级精度的地面真实位置标签;设备分类数据集则通过旋转台与人工移动方式,采集六种不同商用终端的CSI样本,确保了数据的多样性与真实性。
特点
作为首个公开的真实世界5G NR CSI数据集,CAEZ-5G具备显著的学术价值与应用潜力。其核心特征在于提供了包含复杂值全频谱CSI样本及高精度位置标签的多场景数据,覆盖室内实验室、室外校园庭院及设备分类三大场景。数据集采用分布式多输入多输出架构,在100 MHz带宽下获取密集空间覆盖的CSI测量结果,有效支持基于神经网络的用户设备定位、信道图表绘制及设备分类等感知任务。特别值得注意的是,数据集中包含了跨日测量的设备分类样本,能够评估算法在环境轻微变化下的泛化性能,为6G无线系统的感知算法验证提供了可靠基础。
使用方法
为充分发挥CAEZ-5G数据集的效用,研究者可遵循标准化的机器学习流程进行处理与分析。首先,利用NVIDIA PyAerial工具链从原始前传I/Q样本中提取CSI估计值,并与插值后的位置标签进行对齐,构建特征数组。针对神经网络定位任务,可采用降采样的正交频分复用域CSI绝对值作为特征,训练多层感知器模型以预测用户设备位置;信道图表绘制则需提取延迟域近似自相关特征,结合三元组损失与双边定位损失训练模型,实现无监督的伪定位映射。对于设备分类,可基于射频指纹识别特征,利用卷积残差网络模型在封闭集合中进行终端型号判别。所有数据处理代码与预训练模型均已公开,便于复现与进一步研究。
背景与挑战
背景概述
在第六代无线通信系统的发展浪潮中,基于信道状态信息的感知技术被视作实现高精度定位与环境感知的核心支柱。然而,现有研究多依赖于合成数据或非标准协议的系统,缺乏来自真实5G新空口网络的公开数据集,这严重制约了面向6G的算法验证与性能评估。为填补这一关键空白,苏黎世联邦理工学院与英伟达的研究团队于2025年联合发布了CAEZ-5G数据集,该数据集基于完全符合3GPP标准的软件定义5G测试平台,在授权频谱中采集了包含室内外场景及多类商用终端的上行链路信道状态信息。该数据集的核心研究目标在于为神经用户设备定位、信道图表构建以及设备分类等感知任务提供真实世界的基准数据,其发布标志着5G/6G感知研究从仿真验证迈向实际部署的重要转折,为下一代无线通信系统的智能化发展奠定了坚实的实证基础。
当前挑战
CAEZ-5G数据集致力于解决无线通信领域内基于信道状态信息的高精度感知这一核心问题,其首要挑战在于克服合成数据与真实传播环境间的性能鸿沟,确保算法在复杂多径、动态遮挡及干扰存在的实际场景中仍能保持鲁棒性。在数据集构建过程中,研究团队面临多重技术难题:需在完全遵循5G新空口协议栈的前提下,从实时网络流量中无损提取并同步海量信道状态信息样本;同时,为实现厘米级定位精度,必须集成高精度光学运动捕捉系统,并解决其与无线信号采集间的时间同步与空间标定问题。此外,在室外测量中,还需应对开阔环境中信号传播的不确定性以及环境动态变化对数据一致性的影响,这些挑战共同塑造了数据集的高质量与高复杂性特征。
常用场景
经典使用场景
在无线通信与感知融合的研究领域,CAEZ-5G数据集为基于信道状态信息的感知算法提供了真实世界的验证平台。该数据集最经典的使用场景在于支持神经网络用户设备定位、信道图表绘制以及设备分类这三项核心任务。通过利用从苏黎世联邦理工学院部署的5G NR测试床采集的上行链路CSI数据,研究者能够在室内实验室、室外校园庭院等多种实际环境中,开发并评估高精度的感知模型。这些场景不仅覆盖了密集空间采样的轨迹数据,还包含了商用终端的射频指纹特征,为5G及未来6G系统中感知功能的算法设计与性能基准测试提供了关键数据支撑。
衍生相关工作
围绕CAEZ-5G数据集,已衍生出一系列聚焦于5G感知算法改进与扩展的经典研究工作。在神经网络定位方面,研究借鉴了Wi-Fi场景中的概率图输出网络架构,并将其适配于5G多天线分布式系统,实现了亚厘米级室内定位精度。信道图表绘制领域,则融合了基于三元组损失的伪定位方法与双边测量损失的真实坐标锚定技术,首次在5G NR系统中实现了无需位置标签的绝对坐标映射。设备分类任务则受射频指纹识别与CSI隐匿化方法的启发,提出了位置无关的特征提取流程,显著提升了跨日跨环境下的分类鲁棒性。这些工作共同推动了基于5G CSI的感知技术从理论仿真向实际系统部署的跨越。
数据集最近研究
最新研究方向
在无线通信与感知融合的背景下,CAEZ-5G数据集正推动基于信道状态信息的智能感知技术迈向新高度。该数据集作为首个公开的真实5G NR上行链路CSI数据,填补了6G前沿算法验证的关键空白,其高精度标注与复杂环境覆盖为神经终端定位、信道图表构建及设备分类等任务提供了可靠基准。当前研究聚焦于利用分布式多天线架构与深度学习模型,在无需外部参考的条件下实现厘米级定位,并探索射频指纹特征在跨日环境变化下的鲁棒性识别。这些进展不仅加速了通感一体化系统的实用化进程,也为未来智能网络中的自主定位与安全认证奠定了坚实基础。
相关研究论文
  • 1
    CSI-Based User Positioning, Channel Charting, and Device Classification with an NVIDIA 5G Testbed苏黎世联邦理工学院, NVIDIA · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作