Ref-UrbanLF

github2026-01-16 更新2026-01-17 收录

下载链接：

https://github.com/ShishunTian/LFLLM-TBC2026

下载链接

链接失效反馈

官方服务：

资源简介：

本文提出了第一个光场参考分割数据集，包含丰富的遮挡物体和深度参考描述。该数据集分为Ref-UrbanLF-Syn和Ref-UrbanLF-Real两个子集，共有9个不同的类别和4个深度属性标签。

This paper presents the first light field reference segmentation dataset, which contains abundant occluded objects and depth reference descriptions. The dataset is divided into two subsets: Ref-UrbanLF-Syn and Ref-UrbanLF-Real, and includes a total of 9 distinct categories and 4 depth attribute labels.

创建时间：

2026-01-16

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Ref-UrbanLF
主要构成: 包含两个子数据集：Ref-UrbanLF-Syn（合成数据）和 Ref-UrbanLF-Real（真实数据）。
核心任务: 光场指涉分割。这是一个根据自然语言描述对光场图像中的目标进行分割的任务。
提出意义: 这是首个用于指涉分割任务的光场数据集，旨在解决现有2D指涉分割方法在利用几何信息方面的局限性。

数据集内容与特点

数据特点:
- 包含丰富的被遮挡物体。
- 包含基于深度的指涉描述。
类别信息:
- 数据集中定义了9个不同的物体类别。
- 数据集中定义了4个用于描述物体的深度属性标签。
数据规模: 数据划分的详细类别数量在提供的表格中展示（具体数值见原README中的表格图片）。

数据获取与使用

下载地址: Ref-UrbanLF-Real 和 Ref-UrbanLF-Syn 数据集公开发布于百度网盘。
- 链接: https://pan.baidu.com/s/1-aAifpRd3nF8yasnaH0hvA
- 提取码: fgb3

基准测试与评估

评估基准: 研究中对现有的2D指涉图像分割方法在本数据集上进行了性能基准测试。
测试发现: 现有方法在被遮挡场景和基于深度的场景描述中表现有限。
性能对比: 提出的LFLLM方法与其他先进方法（SOTA）在Ref-UrbanLF数据集上的性能评估结果已在图表中展示（具体指标见原README中的评估图片）。

相关资源

提出方法: 为应对本数据集的挑战，论文提出了一个名为LFLLM的新型光场指涉分割框架。
依赖项目: 本数据集的构建及相关研究基于以下开源项目：LISA、UrbanLF、LLaVA、SAM。

搜集汇总

数据集介绍

构建方式

在光场成像与语言引导分割的交叉领域，Ref-UrbanLF数据集作为首个光场指涉分割基准，其构建过程体现了对场景几何信息的深度整合。该数据集包含Ref-UrbanLF-Syn与Ref-UrbanLF-Real两个子集，分别基于合成与真实光场数据构建。通过采集多视角光线信息，数据集涵盖了丰富的遮挡物体及深度相关的自然语言描述，并系统标注了9个物体类别与4种深度属性标签，为模型理解三维场景结构提供了结构化支撑。

使用方法

使用Ref-UrbanLF数据集时，研究者需遵循其提供的标准数据划分与评估协议。数据集支持基于深度学习的指涉分割模型训练与验证，尤其适用于探索光场与语言结合的创新架构。典型流程包括加载光场多视角图像及其对应的自然语言描述与分割掩码，利用预训练视觉-语言模型（如LLaVA）与分割模型（如SAM）进行微调。数据集中提供的训练脚本支持分布式训练与评估，用户可通过配置数据集路径、模型权重及超参数，系统性地验证模型在遮挡理解与深度推理上的性能。

背景与挑战

背景概述

光场成像技术通过捕捉场景中多方向的光线信息，为计算机视觉领域提供了超越传统二维图像的丰富几何与深度线索。在此背景下，浙江工业大学的研究团队于2026年提出了Ref-UrbanLF数据集，旨在推动指代图像分割任务向光场模态的拓展。该数据集聚焦于解决自然语言描述与视觉内容之间的多模态匹配难题，尤其关注遮挡物体与深度描述的分割问题。通过融合合成与真实场景数据，Ref-UrbanLF不仅丰富了光场数据的语义标注体系，也为探索语言与几何信息的协同理解奠定了新的基准，对自动驾驶、机器人感知等依赖场景深度解析的领域具有重要启示意义。

当前挑战

在指代图像分割领域，传统方法局限于二维图像，难以有效利用几何信息处理遮挡场景与深度描述，导致语言与视觉模态间的匹配效能受限。Ref-UrbanLF数据集的构建过程面临多重挑战：一方面，光场数据需从多视角图像中提取并对齐深度与语义信息，技术复杂度较高；另一方面，数据标注需结合自然语言描述与物体深度属性，标注一致性难以保障。此外，数据集中包含大量遮挡物体，要求模型具备更强的空间推理能力，这对现有分割方法提出了新的精度与鲁棒性要求。

常用场景

经典使用场景

在计算机视觉领域，光场成像技术因其能够捕捉多视角光线而备受关注。Ref-UrbanLF数据集作为首个光场指涉分割基准，其经典使用场景聚焦于评估和提升模型在复杂城市场景中的语义理解能力。该数据集通过合成与真实光场图像，模拟了丰富的遮挡对象和深度描述，为研究者提供了测试模型在几何信息融合与语言-视觉对齐方面性能的理想平台。借助多视角图像和自然语言描述，模型能够学习从不同角度解析场景，从而精准定位并分割被指涉的物体，尤其在处理遮挡和深度相关任务时展现出独特价值。

解决学术问题

指涉图像分割任务长期面临语言模态与视觉模态之间的匹配难题，传统二维图像缺乏足够的几何信息以应对复杂场景。Ref-UrbanLF数据集的引入，有效解决了学术研究中关于多模态融合的瓶颈问题。通过提供包含深度属性和遮挡对象的光场数据，该数据集使模型能够利用光线方向信息来增强对场景的三维理解，从而改善分割精度。其意义在于推动了视觉-语言交互研究向更高维度的拓展，为探索深度感知与语义分割的协同机制奠定了数据基础，对跨模态人工智能的发展产生了深远影响。

实际应用

在实际应用层面，Ref-UrbanLF数据集为自动驾驶、机器人导航和增强现实等前沿技术提供了关键支持。在自动驾驶系统中，车辆需要准确理解自然语言指令以识别道路中的特定物体，例如“远处被树遮挡的行人”。该数据集的光场特性使得模型能够透过遮挡物捕捉深度线索，提升在动态环境中的感知鲁棒性。同时，在智能机器人交互中，结合语言描述的光场分割能力有助于实现更精准的对象操控与场景理解，从而推动人机协作向自然、高效的方向发展。

数据集最近研究