yonder

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/astralhf/yonder

下载链接

链接失效反馈

官方服务：

资源简介：

Yonder 是一个用于室内导航的最大公开无人机视角数据集，包含 6,118,356 帧图像和 509,863 个航点 NPZ 文件，覆盖 251 个室内 3D 环境。每个航点 NPZ 文件包含 12 个偏航方向的传感器数据，包括立体 RGB、深度、红外、LiDAR-360、语义分割、姿态和 IMU 等 52 种传感器阵列。数据集源自两个开源 3D 场景数据集（HSSD 和 ReplicaCAD），其中 92 个环境带有语义注释。Yonder 的主要目的是揭示跨模拟器泛化差距，即在一个模拟器上训练的感知模型无法直接迁移到另一个模拟器。数据集适用于无人机视角感知模型训练（如开放词汇检测、单目深度估计、语义分割）和跨模拟器泛化研究。数据集的大部分内容受 CC-BY-NC-4.0 许可限制，不可用于商业用途。

创建时间：

2026-04-30

原始信息汇总

Yonder: 无人机视角室内导航数据集

数据集概览

Yonder 是目前公开发布的最大规模无人机视角室内导航数据集，包含 6,118,356 帧 图像，总数据量约 3.8 TB。该数据集旨在揭示跨模拟器泛化差距问题，配套的闭环基准测试表明：在一个模拟器上训练得到的感知模型无法直接迁移到另一个模拟器。

核心数据统计

指标	数值
总帧数	6,118,356
航点文件数	509,863 个 NPZ 文件
室内3D环境数	251 个
每个NPZ传感器阵列数	52 个
带语义标注的环境数	92 个
数据总量	~3.8 TB

传感器配置

每个航点包含 12 个偏航角方向 的传感器数据：

传感器	分辨率/格式
左RGB	640×480, uint8
右RGB	640×480, uint8
前向深度	640×480, float16 (米)
着陆相机	640×480, uint8 (向下)
上红外 / 下红外	640×480, uint8
LiDAR-360	1024 × 16 通道, float32 (米)
位置/朝向/IMU	float32 (Habitat-Sim世界坐标系)
语义分割	640×480, 实例+类别ID (仅92个场景)

数据来源环境

来源	许可证	场景数	航点数	是否含语义
HSSD (Habitat合成场景数据集)	CC-BY-NC-4.0	167	387,527	是
ReplicaCAD	CC-BY-4.0	84	122,336	否
总计		251	509,863	92个含语义

注意：HM3D和Replica场景因上游许可限制未被包含在发布版本中。Yonder仅提供自有的渲染观测数据，不重新分发上游网格。

数据集结构

indoor/drone-data/augmented/ ├── hssd-102343992/ │ ├── manifest.json │ ├── wp0000.npz │ ├── wp0001.npz │ └── ... ├── hssd-102344022/ │ └── ... └── replica-cad-apt_0/ └── ...

每个场景目录包含：

manifest.json — 场景级元数据（来源、来源ID、场景MD5、许可说明、导航网格范围、航点采样参数）
wp####.npz — 每个航点的NPZ文件，包含全部12个偏航角的所有传感器模态数据

数据划分

Yonder 未预定义训练/验证/测试集划分。论文实验中使用均匀跨场景采样的 10% 航点作为保留集。

许可协议

数据集（本仓库）： CC-BY-NC-4.0，继承HSSD的非商业限制
代码、模型检查点、基准测试： Apache-2.0
仅使用ReplicaCAD子集（84个场景/122,336个航点）可追溯至CC-BY-4.0，允许商业使用（需署名）

预期用途

✅ 推荐使用：

训练无人机视角感知模型（开放词汇检测、单目深度估计、语义分割）
研究跨模拟器泛化 —— 将离线指标与不同模拟器中的闭环评估相结合
与闭环评估器配合，进行长程视觉语言导航基准测试

⚠ 谨慎使用：

端到端导航策略训练（Yonder是感知训练资源，不提供专家轨迹）
仅依赖Yonder离线评估指标的报告（无闭环验证可能无法反映部署性能）

🚫 禁止使用：

商业用途（HSSD多数子集为CC-BY-NC）
监控、生物特征识别，或通过开放词汇检测识别特定真实人物

负责任AI考量

无真实人物：所有帧均来自合成3D场景，不包含任何人类、PII或生物特征数据
纯合成域：Yonder性能不直接迁移至真实场景，需进行显式sim-to-real处理
地理/文化偏差：场景偏向西方住宅内饰，模型可能在非分布风格中表现不佳
跨模拟器评估必须：数据集的核心贡献在于揭示微调收益可能具有欺骗性，必须在不同模拟器或真实世界中验证

搜集汇总

数据集介绍

构建方式

Yonder数据集是专为室内无人机导航设计的大规模航空视角数据集，由两个开源三维场景数据集——HSSD与ReplicaCAD——渲染而成。数据采集过程中，每一航点均包含12种偏航角度的传感器阵列，涵盖双目RGB相机、深度传感器、红外相机、360度激光雷达、语义分割掩码、位姿与IMU数据。总计251个室内三维环境、509,863个航点、6,118,356帧图像，数据量约3.8 TB。

特点

Yonder的核心特点在于其跨模拟器泛化性基准的设计。传统离线指标往往掩盖感知模型在不同模拟器间的性能差异，而Yonder通过提供单一模拟器训练、另一模拟器闭环评估的机制，揭示这一潜在失效模式。此外，数据集拥有92个带语义标注的场景，支持开放词汇检测、深度估计与语义分割等任务，且不包含真实人物图像，避免隐私与伦理风险。

使用方法

使用Yonder时，可通过HuggingFace Datasets库以流式方式加载单个航点数据，或利用snapshot_download下载特定场景的全部NPZ文件。每一航点的数据以NPZ格式存储，包含52个传感器数组。官方建议将Yonder作为感知模型训练资源，并配合跨模拟器闭环评估（如在Isaac Sim中验证训练于Habitat Sim的模型），以获取更可靠的泛化性能指标。预定义的数据集划分请参考论文附带的拆分文件。

背景与挑战

背景概述

Yonder数据集由匿名研究团队于2026年创建，旨在应对室内无人机导航领域跨模拟器泛化差距这一核心研究问题。该数据集以6,118,356帧的庞大规模成为当前最大的公开无人机视角室内导航数据集，其构建依托于HSSD和ReplicaCAD两大开源3D场景数据集，涵盖251个室内环境、509,863个航点及52种传感器阵列，为多模态感知提供了丰富的训练资源。作为NeurIPS 2026数据集与基准轨道收录的工作，Yonder不仅填补了高保真无人机导航数据的空白，更通过引入跨模拟器闭环评估基准，揭示了仅依赖离线指标评估模型可能产生的误导性结论，对推动具身智能领域的鲁棒性研究具有重要影响。

当前挑战

Yonder数据集聚焦于两大核心挑战。其一，领域问题层面，室内无人机导航中感知模型在单一模拟器上训练后，难以直接迁移至不同模拟器或真实环境，传统离线评估指标（如平均精度）无法暴露这一跨域失效模式，亟需一种结合闭环交互的评估范式来量化并缓解该泛化差距。其二，构建过程中，研究团队面临许可兼容性难题：原始HM3D与Replica场景的许可条款禁止衍生数据再分发，迫使团队仅保留HSSD（CC-BY-NC-4.0）与ReplicaCAD（CC-BY-4.0）子集，并放弃商业用途支持；此外，多传感器同步采集、3.8TB海量数据存储与高效流式访问的设计亦构成工程挑战。

常用场景

经典使用场景

Yonder数据集作为迄今为止最大的无人机视角室内导航数据集，其经典使用场景聚焦于训练和评估基于视觉的自主导航感知模型。研究者能够利用其提供的6.1M帧多模态数据，包括立体RGB、深度图像、红外相机、360度激光雷达和语义分割标注，来开发开放词汇目标检测、单目深度估计和语义分割等核心感知任务。该数据集的独特之处在于其专为闭环仿真评估设计，能够揭示在单一模拟器上训练得到的感知模型在不同仿真环境间的泛化性能断裂问题，为构建鲁棒的跨仿真泛化能力提供了关键验证平台。

衍生相关工作

Yonder数据集的发布催生了一系列围绕跨仿真泛化的经典研究工作。研究者基于其提供的多场景多模态数据，开发了面向跨域泛化的域对齐和域自适应算法，例如在HSSD场景上训练的感知模型通过对抗性域适配技术成功迁移至ReplicaCAD场景。此外，该数据集也促进了开放词汇检测在合成室内场景中的评测基准建立，衍生出针对无人机视角下小目标检测和遮挡处理的专项研究。其提供的密集语义标注子集为细粒度场景理解任务提供了新的训练源，推动了结合语言先验的实例分割和场景图生成等领域的发展。

数据集最近研究