RotBench

Hugging Face2025-08-25 更新2025-08-26 收录

下载链接：

https://huggingface.co/datasets/tianyin/RotBench

下载链接

链接失效反馈

官方服务：

资源简介：

RotBench是一个用于评估多模态大型语言模型（MLLMs）是否能识别图像方向的基准数据集。它包含350张经过人工筛选的图像，分为两个子集：大型子集包含300张图像，小型子集包含50张图像。所有图像都是从Spatial-MM数据集中选取的，并经过两阶段的人工验证，确保旋转是可区分的。

创建时间：

2025-08-25

原始信息汇总

RotBench 数据集概述

数据集简介

RotBench 是一个用于评估多模态大语言模型（MLLMs）识别图像方向能力的基准数据集。该数据集包含 350 张经过人工筛选的图像，主要用于测试模型对图像旋转的识别性能。

数据集结构

数据划分

Large 子集：包含 300 个样本，数据量为 4,651,568 字节
Small 子集：包含 50 个样本，数据量为 694,935 字节

特征字段

image：图像数据（图像格式）
image_name：图像名称（字符串格式）

数据来源

所有图像均选自 Spatial-MM 数据集（https://github.com/FatemehShiri/Spatial-MM），并经过两阶段人工验证流程，确保旋转效果可区分。

技术细节

下载大小：10,233,742 字节
数据集总大小：5,346,503 字节
许可协议：Apache-2.0
任务类别：图像-文本到文本

使用方式

可通过 Hugging Face datasets 库加载数据集： python from datasets import load_dataset dataset = load_dataset("tianyin/RotBench")

引用信息

如需在研究中使用本数据集，请引用： bibtex @misc{niu2025rotbenchevaluatingmultimodallarge, title={RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation}, author={Tianyi Niu and Jaemin Cho and Elias Stengel-Eskin and Mohit Bansal}, year={2025}, eprint={2508.13968}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.13968}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，评估多模态大语言模型对图像空间感知能力的需求日益增长。RotBench数据集基于Spatial-MM数据集精选350张图像，通过两阶段人工验证流程确保图像旋转方向具有明确可区分性，最终构建包含300张图像的大型子集与50张图像的小型子集，为模型方向识别能力提供可靠基准。

特点

该数据集的核心价值在于其严谨的质量控制与多尺度评估架构。所有图像均经过人工筛选确保旋转特征显著性，双分支结构既能满足大规模模型测试需求，又能提供轻量化验证方案。图像数据附带原始文件名标识，支持精准样本追溯与跨数据集比对研究。

使用方法

研究者可通过HuggingFace数据集库直接加载RotBench，使用load_dataset函数指定'tianyin/RotBench'即可访问。数据按大小子集分层存储，用户可灵活选择large或small分支进行实验。每项样本包含PIL格式图像对象及对应文件名，便于直接输入多模态模型进行旋转方向识别任务评估。

背景与挑战

背景概述

随着多模态大语言模型在视觉-语言理解任务中的广泛应用，评估其空间感知能力成为计算机视觉领域的重要研究方向。RotBench由北卡罗来纳大学教堂山分校的研究团队于2025年创建，专注于评估模型对图像旋转方向的识别能力。该数据集源自Spatial-MM数据集，通过两阶段人工验证流程筛选出350张具有明确方向特征的图像，为多模态模型的几何空间推理能力提供了标准化评估基准，推动了视觉-语言模型在空间认知方面的深入研究。

当前挑战

RotBench致力于解决多模态模型在图像方向识别任务中的几何空间推理挑战，包括旋转角度判别、空间关系理解和视觉-语言对齐等核心问题。在构建过程中，研究团队面临图像筛选的严谨性挑战，需确保每张图像具有明确的可区分旋转特征，同时维持数据集的多样性和代表性。此外，人工验证流程的设计需要平衡主观判断与客观标准，以保证评估结果的可靠性和一致性。

常用场景

经典使用场景

在计算机视觉与多模态学习交叉领域，RotBench数据集被广泛用于评估多模态大语言模型对图像空间方位的感知能力。研究者通过系统性地旋转图像并测试模型对旋转角度的识别准确率，深入探究模型对视觉空间关系的理解机制，这一过程已成为衡量模型几何感知性能的标准范式。

实际应用

在实际应用层面，RotBench支撑了自动驾驶系统中环境感知模块的方位识别优化，辅助医疗影像分析设备对医学图像的自动方向校正，并应用于遥感图像处理领域的方向敏感任务。这些应用显著提升了多模态系统在真实场景中对空间方位的判断可靠性，为产业界提供了重要的性能验证依据。

衍生相关工作

基于RotBench的评估范式，研究者开发了包括旋转不变特征提取网络、几何增强的多模态预训练框架等一系列创新工作。这些衍生研究不仅扩展了多模态模型的几何认知边界，还催生了面向三维空间理解的延伸基准，形成了从二维旋转识别到三维空间推理的完整研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集