five

UrBench|城市环境评估数据集|多模态模型数据集

收藏
arXiv2024-08-30 更新2024-09-03 收录
城市环境评估
多模态模型
下载链接:
https://opendatalab.github.io/UrBench/
下载链接
链接失效反馈
资源简介:
UrBench是由上海人工智能实验室等机构创建的综合性城市环境评估数据集,包含11.6K条问题,覆盖地理定位、场景推理、场景理解和对象理解四个维度。数据集通过结合现有数据集和收集自11个城市的数据,利用跨视图检测匹配方法创建新的标注,并整合多种方法生成高质量问题。UrBench主要用于评估和提升大型多模态模型在城市环境中的应用能力,特别是在多视角理解方面的性能。
提供机构:
上海人工智能实验室, 中山大学, 商汤科技研究, 武汉大学
创建时间:
2024-08-30
AI搜集汇总
数据集介绍
main_image_url
构建方式
UrBench数据集的构建过程融合了现有数据集的数据,并额外收集了来自11个城市的数据。通过引入一种跨视图检测匹配方法,创建了新的标注。随后,结合基于大型多模态模型(LMM)、规则和人工的方法,构建了大规模高质量的问题集。这一过程确保了数据集在多视图城市场景中的全面性和多样性。
特点
UrBench数据集的显著特点在于其多视图和多任务的特性。它包含了11.6K个精心设计的问题,涵盖了地理定位、场景推理、场景理解和对象理解四个维度,共计14种任务类型。此外,数据集还特别强调了城市环境中的多视图关系理解,提供了卫星视图、街道视图和跨视图的图像,以评估模型在复杂城市环境中的表现。
使用方法
UrBench数据集适用于评估和开发大型多模态模型(LMMs)在城市环境中的能力。研究者可以使用该数据集进行模型训练和测试,以评估模型在地理定位、场景推理、场景理解和对象理解等任务中的表现。通过分析模型在不同视图和任务类型中的表现,可以进一步优化和提升模型的性能,特别是在处理多视图城市数据时的能力。
背景与挑战
背景概述
近年来,大型多模态模型(LMMs)在多个领域展现出卓越的能力,但在城市环境中的评估仍显不足。为此,上海人工智能实验室、中山大学、商汤科技和武汉大学的研究人员共同创建了UrBench数据集。该数据集于2024年提出,旨在全面评估LMMs在多视角城市场景中的表现。UrBench包含11.6K精心设计的问题,涵盖地理定位、场景推理、场景理解和对象理解四个维度,共14种任务类型。通过整合现有数据集和从11个城市收集的新数据,UrBench采用跨视角检测匹配方法创建了高质量的标注。该数据集的发布对提升LMMs在复杂城市环境中的应用能力具有重要意义。
当前挑战
UrBench数据集在构建过程中面临多项挑战。首先,跨视角场景的标注创建是一个关键难题,尽管获取配对的街景和卫星图像相对容易,但创建关于其跨视角对应关系的问题仍然困难。其次,当前的LMMs在处理城市环境任务时表现不佳,尤其是在地理定位和对象属性识别等复杂任务上,与人类专家相比存在显著差距。此外,LMMs在不同城市视角下的表现不一致,特别是在理解跨视角关系方面存在明显不足。这些挑战揭示了现有LMMs在城市环境理解中的局限性,为未来的研究提供了改进方向。
常用场景
经典使用场景
UrBench 数据集在评估大型多模态模型(LMMs)在多视角城市场景中的能力方面具有经典应用。该数据集通过精心设计的11.6K个问题,涵盖了地理定位、场景推理、场景理解和对象理解四个维度,共计14种任务类型。这些任务不仅包括区域级别的评估,还扩展到角色级别的日常问题解决,从而全面评估模型在复杂城市环境中的表现。
实际应用
UrBench 数据集在实际应用中具有广泛潜力,特别是在城市规划和管理领域。例如,政府官员可以使用该数据集评估模型在城市发展规划中的辅助能力,而市民则可以利用这些模型在日常生活中做出更明智的决策。此外,该数据集还可用于开发能够从多个视角理解城市环境的智能助手,提升城市生活的智能化水平。
衍生相关工作
UrBench 数据集的发布催生了一系列相关研究工作,特别是在多模态模型在城市环境中的应用评估方面。例如,一些研究开始探索如何利用 UrBench 数据集改进模型的跨视角理解能力,以及如何将这些模型应用于更广泛的城市任务。此外,该数据集还激发了对多视角数据收集和标注方法的研究,进一步推动了多模态模型在复杂环境中的应用和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

Pew Research Center Surveys

Pew Research Center Surveys 包含多个社会科学领域的调查数据,涵盖政治、社会、科技、宗教等多个主题。这些调查数据通常用于分析公众意见、态度和行为。

www.pewresearch.org 收录