CityEQA-EC
收藏arXiv2025-02-18 更新2025-02-20 收录
下载链接:
https://github.com/BiluYong/CityEQA.git
下载链接
链接失效反馈官方服务:
资源简介:
CityEQA-EC数据集是首个面向城市空间的具体问题回答任务的开源数据集,由国防科技大学和清华大学共同研发。该数据集基于EmbodiedCity平台,包含六个类别共1412个人工标注的任务实例,这些任务实例涵盖了丰富的城市地标和空间关系。数据集的构建过程包括原始问答生成和任务补充两个步骤,最终通过人工审核确保数据质量。该数据集的应用领域主要针对城市空间智能,旨在促进Embodied Question Answering在城市环境中的应用和研究。
CityEQA-EC is the first open-source dataset dedicated to urban spatial-specific question answering tasks, co-developed by the National University of Defense Technology and Tsinghua University. Built upon the EmbodiedCity platform, this dataset comprises 1412 manually annotated task instances across six categories, covering a wide range of urban landmarks and spatial relationships. The construction of this dataset involves two main stages: raw question-answer generation and task supplementation, with final manual review conducted to ensure high data quality. Its application scenarios primarily focus on urban spatial intelligence, aiming to promote the application and research of Embodied Question Answering in urban environments.
提供机构:
国防科技大学, 清华大学
创建时间:
2025-02-18
搜集汇总
数据集介绍

构建方式
CityEQA-EC数据集的构建依托于EmbodiedCity平台,这是一个基于真实城市元素的3D模拟器。数据集的收集过程分为两个主要阶段:原始问答生成和任务补充。首先,由人工标注者探索EmbodiedCity环境,并根据其观察到的RGB图像生成问答对。然后,通过引入地标和空间关系来丰富问题描述,并确定代理的初始姿态。最终,数据集经过验证和筛选,包含了1,412个人工标注的任务实例,涵盖了六个类别,如物体识别、属性识别、计数、存在判断、空间推理和世界知识。
特点
CityEQA-EC数据集的主要特点包括:1) 开放词汇问题:数据集中的问题涵盖了开放词汇,要求代理能够理解和回答自然语言中的问题。2) 基于城市环境:数据集的环境是基于真实城市元素的3D模拟器,为代理提供了真实城市环境的复杂性和挑战。3) 多任务类型:数据集包含了六个不同的任务类型,要求代理能够执行导航、探索和收集等子任务。4) 人类标注:数据集中的任务实例由人工标注者生成,确保了问题的质量和答案的准确性。
使用方法
使用CityEQA-EC数据集的方法包括:1) 代理训练:将数据集用于训练和评估基于代理的模型,以提高其在城市环境中进行问答任务的能力。2) 模型评估:将数据集作为基准,用于评估和比较不同模型在CityEQA任务上的性能。3) 研究分析:使用数据集进行研究和分析,以了解和改进城市环境中智能体的视觉推理能力。
背景与挑战
背景概述
CityEQA-EC数据集是首个针对城市环境中具身问答(Embodied Question Answering, EQA)任务的基准数据集,由国防科技大学和清华大学的研究人员于2025年提出。该数据集旨在解决传统EQA任务主要集中于室内环境的问题,而忽略了城市环境中环境、动作和感知的复杂性。CityEQA-EC数据集包含1,412个人工标注的任务,涵盖了六个类别,并基于一个真实的3D城市模拟器。为了应对这一挑战,研究人员提出了一个名为Planner-Manager-Actor(PMA)的新型智能体,该智能体能够进行长跨度规划和分层任务执行,从而在动态城市空间中通过主动探索来回答开放词汇的问题。实验结果表明,PMA在回答准确性方面达到了人类水平的60.7%,显著优于基于前沿的基线。尽管这一结果令人鼓舞,但与人类的性能差距突显了在城市EQA中增强视觉推理的必要性。
当前挑战
CityEQA-EC数据集面临的主要挑战包括:1)环境复杂性:城市环境具有复杂性和模糊性,包含多种物体和结构,这些物体在视觉上相似且难以区分,增加了构建任务指令和准确指定所需信息的难度。2)动作复杂性:城市空间的地域规模庞大,迫使智能体采用更大的动作幅度来提高探索效率,但这也可能导致忽视场景中的详细信息。因此,智能体需要具备跨尺度动作调整能力,以有效地平衡长距离路径规划和精细的运动和角度控制。3)感知复杂性:观察结果会根据距离、方向和视角而有所不同,例如,一个物体在近距离和远距离或不同角度下看起来可能完全不同。这些差异给一致性带来了挑战,并可能影响答案生成的准确性,因为具身智能体必须适应城市环境的动态和复杂性。
常用场景
经典使用场景
CityEQA-EC数据集被设计用于评估具身智能体在开放城市空间中回答开放式问题的能力。该数据集包含六个类别,共计1,412个由人类注释的任务,这些任务在真实的3D城市模拟器中完成。数据集的开放性和复杂性使其成为评估具身智能体在城市环境中进行长期规划和任务执行能力的理想选择。
解决学术问题
CityEQA-EC数据集解决了在城市环境中进行具身问答(EQA)的挑战。城市环境具有更高的环境复杂性,行动复杂性和感知复杂性。该数据集通过引入开放词汇问题和需要利用地标和空间关系来界定预期答案的任务,为具身智能体在城市环境中进行有效探索和高质量答案生成提供了基础。
衍生相关工作
CityEQA-EC数据集的提出推动了城市空间智能领域的研究。基于该数据集,研究人员可以开发新的算法和模型,以解决城市环境中具身问答的挑战。此外,该数据集还可以用于评估和比较不同具身智能体的性能,从而促进该领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



