AVI-Math

github2025-09-15 更新2025-09-16 收录

下载链接：

https://github.com/VisionXLab/avi-math

下载链接

链接失效反馈

官方服务：

资源简介：

AVI-Math是第一个用于评估无人机图像中多模态数学推理的基准数据集，包含3,773个从无人机视角捕获的高质量车辆相关问题，涵盖算术、计数、代数、统计、逻辑和几何等6个数学学科，以及20个具体主题。数据在不同高度和多个无人机角度下收集，反映了真实的无人机场景，确保了构建数学问题的多样性和复杂性。

AVI-Math is the first benchmark dataset for evaluating multimodal mathematical reasoning in drone imagery. It contains 3,773 high-quality vehicle-related questions captured from a drone's perspective, covering six mathematical disciplines including arithmetic, counting, algebra, statistics, logic, and geometry as well as 20 specific topics. The data was collected across varying altitudes and multiple drone angles, which reflects real-world drone scenarios and ensures the diversity and complexity of the constructed mathematical problems.

创建时间：

2025-09-09

原始信息汇总

数据集概述：AVI-Math

基本信息

数据集名称：AVI-Math
简介：首个专注于无人机影像中多模态数学推理的基准数据集，涵盖几何、逻辑和代数等领域的领域特定知识，超越简单计数任务。
数据规模：3,773个高质量与车辆相关的问题
数据来源：从无人机视角捕获，在不同高度和多个无人机角度收集，反映真实世界无人机场景

数据内容

数学主题：6个主题（算术、计数、代数、统计、逻辑、几何）
涵盖话题：20个主题
问题类型：包括自由形式问题、多项选择题和真假判断题

数据集特点

多样性：数据收集于不同高度和多个无人机角度，确保构建数学问题的多样性和复杂性
真实性：反映真实世界无人机场景
高质量：所有问题均为高质量车辆相关问题

评估基准

测试模型：14个知名视觉语言模型（VLMs）
评估内容：多模态数学推理能力
主要发现：当前VLMs在数学推理任务上存在显著局限性

探索方向

思维链提示（Chain-of-Thought prompting）
微调技术
指令集：提供215k样本指令集，供VLMs学习无人机场景中的领域特定知识

获取方式

下载地址：https://huggingface.co/datasets/erenzhou/AVI-Math
代码参考：评估代码可用于推理和评分

引用格式

bibtex @ARTICLE{zhou2025avimath, author={Zhou, Yue and Feng, Litong and Lan, Mengcheng and Yang, Xue and Li, Qingyun and Ke, Yiping and Jiang, Xue and Zhang, Wayne}, journal={ISPRS Journal of Photogrammetry and Remote Sensing}, title={Multimodal Mathematical Reasoning Embedded in Aerial Vehicle Imagery: Benchmarking, Analysis, and Exploration}, year={2025}, volume={}, number={}, pages={}, doi={} }

搜集汇总

数据集介绍

构建方式

在无人机遥感领域，数学推理对于精确计算与空间分析至关重要。AVI-Math数据集的构建采用多源无人机视角，通过在不同高度和角度采集高质量车辆图像，结合领域专业知识生成数学问题。该过程涵盖几何、逻辑和代数等六大学科，确保问题多样性和复杂性，最终形成3,773个与车辆相关的多模态问题，真实反映无人机应用场景。

特点

AVI-Math作为首个专注于无人机图像中多模态数学推理的基准数据集，其突出特点在于融合真实无人机场景与复杂数学问题。数据集涵盖算术、统计、逻辑等20个主题，问题形式包括自由作答、多项选择和判断题，兼具多样性与挑战性。其多角度、多高度的数据采集方式保证了场景的真实性，为评估视觉语言模型的数学推理能力提供了全面而严谨的测试平台。

使用方法

研究人员可通过HuggingFace平台获取AVI-Math数据集，并利用提供的评估代码进行模型测试与性能分析。该数据集支持对14种主流视觉语言模型的基准评估，特别适合探究链式思维提示和微调技术对数学推理能力的提升效果。用户可依据数据集中的多模态问题设计实验，深入分析模型在无人机图像理解与数学推理方面的表现，推动可信无人机视觉语言模型的发展。

背景与挑战

背景概述

无人机遥感技术的高速发展催生了对于多模态数学推理能力的迫切需求，AVI-Math数据集应运而生。该数据集由华东师范大学、南洋理工大学、商汤科技等机构联合研发，于2025年正式发布，旨在解决无人机影像中几何计算、轨迹估计、空间分析等核心数学问题。通过3773个高质量飞行器相关问答，覆盖算术、代数、几何等六大学科，其多角度、多海拔的数据采集方式显著提升了无人机视觉语言模型在真实场景中的推理能力，为遥感人工智能领域提供了关键评估基准。

当前挑战

该数据集首要挑战在于解决无人机影像中复杂数学推理任务的表征学习问题，包括几何关系建模、空间逻辑推演及多尺度目标计算等难点。构建过程中需克服多模态数据对齐的复杂性：既要保证无人机视角下图像与数学问题的语义一致性，又需协调不同海拔、角度采集数据的标注质量。此外，真实场景中光照变化、目标遮挡等干扰因素进一步增加了数据标注与验证的难度。

常用场景

经典使用场景

在无人机遥感领域，AVI-Math数据集为多模态数学推理任务提供了标准化评估框架。该数据集通过3,773个高质量飞行器相关问题，覆盖几何、逻辑与代数等六大学科分支，典型应用于测试视觉语言模型在航拍图像中的数学推理能力。研究者可利用其多角度、多海拔的无人机实景数据，构建复杂的数学问题求解场景，推动模型在空间计算与轨迹分析方面的性能突破。

衍生相关工作

基于AVI-Math的评估结果，研究者开发了链式思维提示与微调技术等创新方法，显著提升了模型在数学推理任务中的表现。该数据集催生了面向无人机场景的21.5万样本指令集，推动了领域自适应预训练技术的发展。相关成果为多模态推理模型在遥感领域的应用奠定了理论基础，并衍生出多个专注于几何计算与空间逻辑推理的后续研究。

数据集最近研究