Ref-LERF

Name: Ref-LERF
Creator: 上海财经大学、复旦大学、南洋理工大学、中山大学
Published: 2025-08-12 01:59:30
License: 暂无描述

arXiv2025-08-12 更新2025-08-13 收录

下载链接：

https://github.com/heshuting555/ReferSplat

下载链接

链接失效反馈

官方服务：

资源简介：

Ref-LERF数据集是为了支持R3DGS（Referring 3D Gaussian Splatting Segmentation）任务而构建的。该任务旨在根据自然语言描述在3D高斯场景中分割目标对象。数据集内容丰富，包含了复杂的空间语言描述。数据集的创建过程涉及从多视角训练图像中学习3D场景知识，并利用这一知识来识别可能被遮挡或不在新视角中直接可见的对象。该数据集的应用领域包括具身AI、自动驾驶和VR/AR系统等，旨在解决基于任意语言描述解释和定位对象的问题。

The Ref-LERF dataset is constructed to support the R3DGS (Referring 3D Gaussian Splatting Segmentation) task. This task aims to segment target objects in 3D Gaussian scenes based on natural language descriptions. The dataset features rich content, including complex spatial language descriptions. The construction of the dataset entails learning 3D scene knowledge from multi-view training images, and leveraging this knowledge to identify objects that may be occluded or not directly visible from novel viewpoints. The dataset finds applications in embodied AI, autonomous driving, VR/AR systems and other domains, with the goal of addressing the challenge of interpreting and localizing objects based on arbitrary natural language descriptions.

提供机构：

上海财经大学、复旦大学、南洋理工大学、中山大学

创建时间：

2025-08-12

原始信息汇总

数据集概述

基本信息

数据集名称: Ref-LERF
任务类型: Referring 3D Gaussian Splatting Segmentation (R3DGS)
会议/期刊: ICML 2025 Oral
论文链接: arXiv PDF

数据集描述

主要内容: 该数据集用于基于自然语言描述在3D高斯场景中分割目标对象。
挑战: 3D多模态理解和空间关系建模。
应用场景: 推进具身AI的发展。

数据集结构

下载链接: Ref-LERF dataset
目录结构: bash <path to ref-lerf dataset> |---figurines |---ramen |---waldo_kitchen |---teatime

检查点和伪掩码

下载链接: Checkpoints and Pseudo mask

代码库

克隆方式: bash #SSH git clone git@github.com:heshuting555/ReferSplat.git cd ReferSplat

或 bash #HTTPS git clone https://github.com/heshuting555/ReferSplat.git cd ReferSplat

环境配置

安装方法: bash conda env create --file environment.yml conda activate refsplat

训练与渲染

训练命令: bash python train.py -s <path to ref-lerf dataset> -m <path to output_model>
渲染命令: bash python render.py -m <path to output_model>

引用

bibtex @inproceedings{ReferSplat, title={{ReferSplat}: Referring Segmentation in 3D Gaussian Splatting}, author={He, Shuting and Jie, Guangquan and Wang, Changshuo and Zhou, Yun and Hu, Shuming and Li, Guanbin and Ding, Henghui}, booktitle={International Conference on Machine Learning (ICML)} }

搜集汇总

数据集介绍

构建方式

Ref-LERF数据集的构建基于3D高斯泼溅技术（3D Gaussian Splatting, 3DGS），通过多视角RGB图像采集与复杂自然语言标注相结合。研究团队使用Polycam iPhone应用采集了四个多样化真实场景，每个场景中的对象平均标注了5条包含空间关系和属性描述的自然语言表达式，总计295条描述对应59个目标对象。数据标注采用两阶段流程：首先生成伪真实掩膜（pseudo ground truth masks），通过Grounded SAM模型结合置信度加权IoU策略筛选高质量候选掩膜；随后通过人工校验确保标注准确性，特别强化了空间方位词（如“靠近”“上方”）和细粒度属性词（如“圆形”“光滑表面”）的标注密度。

特点

该数据集的核心特点体现在三维空间与语言的深度耦合：1）标注语言平均长度达13.6词，包含丰富的空间关系描述（占比32.7%）和物体属性特征（占比41.3%），显著超越传统开放词汇数据集；2）支持跨视角推理任务，要求模型根据多视角训练数据推断新视角中可能被遮挡的目标；3）采用伪真实掩膜生成技术，通过置信度加权IoU策略实现92.4%的掩膜质量评分，较传统top-1选择策略提升45.6%。可视化分析显示，场景中83%的标注涉及多物体空间关系描述，如'靠近绿椅的彩色玩具'等复杂指代。

使用方法

数据集使用需遵循三维语言对齐框架：1）输入阶段将自然语言查询通过BERT编码为128维文本特征，与3D高斯点的参考特征向量进行跨模态交互；2）训练阶段采用位置感知的交叉注意力机制（Position-aware Cross-Modal Interaction），将高斯点的中心坐标μ_i通过MLP投影为位置嵌入，与文本特征进行空间对齐；3）推理阶段通过渲染公式M(v)=∑m_iα_i∏(1-α_j)生成目标掩膜，其中m_i表示第i个高斯点与文本的相似度响应。评估采用mIoU指标，要求模型在测试视角（含30%遮挡案例）中预测目标掩膜，典型baseline如LangSplat适配版仅能达到13.9% mIoU，而ReferSplat框架可达29.2%。

背景与挑战

背景概述

Ref-LERF数据集由Fudan University和Shanghai University of Finance and Economics等机构的研究团队于2025年提出，旨在推动3D高斯场景下的自然语言指代分割研究。该数据集基于LERF-OVS扩展构建，聚焦于通过空间关系和物体属性的自然语言描述实现3D高斯分布的精准分割，填补了自由形式语言交互与3D场景理解之间的研究空白。作为首个面向Referring 3D Gaussian Splatting Segmentation（R3DGS）任务的数据集，其包含295条涵盖59个物体的复杂空间描述，平均语句长度达13.6词，显著提升了3D多模态理解的基准难度，为具身智能和VR/AR系统的发展提供了重要支撑。

当前挑战

Ref-LERF面临的核心挑战体现在两方面：领域层面，需解决自然语言描述中空间关系推理（如'桌子左侧的红色物体'）与遮挡物体识别的问题，这要求模型具备跨模态对齐和三维空间推理能力；构建层面，伪标签生成需克服Grounding SAM置信度与真实精度不匹配的缺陷，研究者创新性提出置信度加权IoU策略优化掩模质量。此外，3D高斯点与文本特征的交互建模存在语义相似描述干扰（如'靠近苹果的椅子'与'靠近椅子的苹果'），需通过高斯-文本对比学习增强特征判别性。

常用场景

经典使用场景

Ref-LERF数据集在3D高斯泼溅（3D Gaussian Splatting）领域中被广泛应用于基于自然语言描述的3D物体分割任务。该数据集通过提供丰富的语言表达和复杂的空间关系标注，使得模型能够在多视角训练图像中学习3D场景知识，从而实现对遮挡或不可见物体的准确分割。这一经典应用场景在计算机视觉和人工智能领域具有重要研究价值。

衍生相关工作

基于Ref-LERF数据集，研究者们提出了多项创新性工作，其中最典型的是ReferSplat框架。该框架通过构建3D高斯参考场、引入位置感知的跨模态交互模块以及高斯-文本对比学习，显著提升了3D高斯泼溅场景下的语言引导分割性能。此外，该数据集还启发了后续关于4D高斯泼溅和3D视觉基础等方向的研究，推动了3D场景理解技术的持续发展。

数据集最近研究