five

OrienText300K

收藏
arXiv2025-02-19 更新2025-02-20 收录
下载链接:
https://qizekun.github.io/sofar
下载链接
链接失效反馈
官方服务:
资源简介:
OrienText300K是一个由Galbot构建的大规模数据集,包含超过35万个日常物体的3D模型,每个模型都标注有语义方向。该数据集通过从互联网获取的3D模型,使用GPT-4o自动标注,经过筛选保证数据质量。数据集旨在支持语言条件下的方向模型训练,链接几何理解与功能语义,用于推动机器人对物体方向的理解和操作。

OrienText300K is a large-scale dataset constructed by Galbot, containing over 350,000 3D models of everyday objects, each annotated with semantic orientation. This dataset is built upon 3D models sourced from the Internet, automatically annotated by GPT-4o, and undergoes strict filtering to ensure high data quality. The dataset aims to support the training of orientation models under language conditions, bridging geometric understanding and functional semantics, and to advance robotic understanding and manipulation of object orientations.
提供机构:
清华大学, 上海交通大学, Galbot, 北京大学, UIUC, 上海科技大学, 东部理工学院, 上海琦智学院, 上海人工智能实验室
创建时间:
2025-02-19
搜集汇总
数据集介绍
main_image_url
构建方式
OrienText300K数据集是通过从互联网上收集的3D模型构建的,这些模型被自动标记并注释了语义方向。为了构建这个数据集,研究人员使用了现有的Web 3D数据集Objaverse,并利用GPT-4o进行自动标注。数据集的构建过程包括数据筛选、数据标注和质量验证。数据筛选过程旨在去除噪声数据和低质量样本,保留具有足够空间推理潜力的样本。数据标注过程使用GPT-4o生成语言描述和与物体显著方向相关的语义方向。质量验证过程包括手动标注的过滤标准和语义方向标签,以确保数据集的质量。
使用方法
OrienText300K数据集主要用于训练语言条件下的方向模型,例如PointSO。PointSO是一种基于Transformer的跨模态3D语言融合架构,它接受物体的3D点云和语言描述作为输入,并预测相应的语义方向。使用OrienText300K数据集训练的PointSO模型可以可靠地推断任意物体的语义方向,而不会受到已知类别或实例的限制。此外,OrienText300K数据集还可以用于评估和改进机器人操作能力,例如在Open6DOR和SIMPLER等模拟和现实世界实验中的6自由度对象重新排列任务。
背景与挑战
背景概述
OrienText300K数据集是在2025年由齐泽昆、张文耀、丁宇飞等研究人员在清华大学、上海交通大学、加利福尼亚大学香槟分校等机构共同创建的。该数据集旨在解决视觉语言模型在理解和交互过程中缺乏对物体方向精确理解的问题,从而提升机器人在执行精细操作任务时的能力。数据集包含超过35万个3D模型,每个模型都标注了语义方向,这些方向是通过自然语言描述的,例如“刀的切割方向”或“杯子的把手方向”。OrienText300K数据集的创建为语言条件下的方向模型训练提供了支持,使得机器人能够根据位置和方向约束生成操作动作,从而在视觉问答、物体操作和导航等任务中取得显著的性能提升。
当前挑战
OrienText300K数据集和相关研究面临着一些挑战。首先,现有的视觉语言模型在理解物体方向方面存在不足,这使得它们在执行需要精细操作的任务时能力有限。其次,构建一个能够精确理解物体方向的大规模数据集是一项挑战,这需要解决语义方向知识的获取和整合问题。此外,如何将语义方向与视觉语言模型有效整合,以实现更全面的场景理解,也是需要解决的问题。
常用场景
经典使用场景
OrienText300K数据集主要用于支持空间推理和机器人操作中的语义方向理解。该数据集包含了大量三维模型,每个模型都被标注了语义方向,这些方向通过自然语言描述与模型的功能语义相关联。通过这种方式,机器人可以更好地理解物体的方向,例如刀的“切割”方向或杯子的“手柄”方向,从而在执行任务时进行精确的定位和操作。
解决学术问题
OrienText300K数据集解决了现有视觉语言模型在理解物体方向方面的不足。虽然现有的模型能够感知物体的位置和位置关系,但它们缺乏精确理解物体方向的能力,这对于涉及细粒度操作的机器人任务来说是一个关键要求。OrienText300K数据集的引入使得机器人能够生成具有位置和方向约束的操作动作,从而显著提高了机器人的操作能力。
实际应用
OrienText300K数据集在实际应用中主要用于机器人操作和导航。通过理解物体的语义方向,机器人可以更精确地完成各种任务,例如插入笔、扶正倾斜的酒杯或将插头插入电源插座。这些任务对于机器人来说非常重要,因为它们需要在不同的环境中与不同的物体进行交互,并且需要精确地控制物体的位置和方向。
数据集最近研究
最新研究方向
OrienText300K数据集作为语言理解与物体方向感知的桥梁,在空间推理和机器人操作领域具有前沿性。该数据集支持语义方向的概念,即使用自然语言来定义物体方向,例如刀的“切割”方向或杯子的“手柄”方向。这种表示方式比传统的参考框架更加灵活,更适合于遵循指令的机器人系统。通过将语义方向集成到视觉语言模型(VLM)系统中,机器人可以生成具有位置和方向约束的操作动作。此外,该数据集还支持机器人操作、导航和视觉问答任务,例如Open6DOR和SIMPLER等。
相关研究论文
  • 1
    SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation清华大学, 上海交通大学, Galbot, 北京大学, UIUC, 上海科技大学, 东部理工学院, 上海琦智学院, 上海人工智能实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作