GEOBench-VLM|视觉-语言模型数据集|地理空间任务数据集
收藏GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks
💡 概述
GEOBench-VLM 是一个专门用于评估视觉语言模型(VLM)在地理空间任务上的基准测试。该基准测试包含超过10,000个问题,涵盖了地球观测任务中的多种任务,如时间理解、指代分割、视觉定位、场景理解、计数、详细图像描述和关系推理。每个任务都旨在捕捉独特的领域特定挑战,涉及不同的视觉条件和对象尺度,适用于灾害评估、城市规划和环境监测等应用。
🏆 贡献
- GEOBench-VLM 基准测试:引入了一个专门用于评估 VLM 在地理空间任务上的基准测试套件,涵盖8个主要类别和31个子任务,包含超过10,000个手动验证的问题。
- VLM 评估:详细评估了十个最先进的 VLM,包括通用(开源和闭源)和任务特定的地理空间 VLM,突出了它们在处理地理空间任务方面的能力和局限性。
- 地理空间任务性能分析:分析了 VLM 在多种任务中的表现,包括场景分类、计数、变化检测、关系预测、视觉定位、图像描述、分割、灾害检测和时间分析,提供了改进 VLM 以用于地理空间应用的关键见解。
🗂️ 基准测试比较
提供了通用和地理空间特定数据集与基准测试的概述,详细说明了模态、数据源、答案类型和注释类型。
🔍 数据集注释流程
注释流程整合了多样化的数据集、自动化工具和手动注释。任务如场景理解、对象分类和非光学分析基于分类数据集,而 GPT-4o 生成独特的多选题,包含一个正确答案、一个语义上最接近的选项和三个合理的替代选项。空间关系任务依赖于手动注释的对象对关系,通过交叉验证确保一致性。
📊 结果
- 总体性能:GPT-4o 在相对简单的任务中表现较好,如飞机类型分类、灾害类型分类、场景分类和土地利用分类,但在多样化的地理空间任务中平均准确率仅为40%。
- 时间理解结果:GPT-4o 在分类和计数任务中总体表现最佳。
- 指代表达检测:报告了在0.5 IoU 和0.25 IoU 下的精度。
🤖 定性结果
展示了模型在地理空间场景理解、计数、对象分类、事件检测和空间关系任务中的表现,强调了上下文推理和处理重叠视觉线索的重要性。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
CBIS-DDSM
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。
github 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录
SWaT Dataset
SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。
itrust.sutd.edu.sg 收录