STORM

Name: STORM
Creator: 浙江大学, 蚂蚁集团, 香港科技大学（广州）, 圣母大学
Published: 2025-06-02 22:48:15
License: 暂无描述

arXiv2025-06-02 更新2025-06-05 收录

下载链接：

https://storm-bench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

STORM数据集是一个全面的视觉评分数据集，旨在促进多模态大型语言模型（MLLMs）的可信排序回归能力。该数据集涵盖了五个常见视觉评分领域中的14个排序回归数据集，包含655K图像级配对及其对应的精心策划的视觉问答（VQA）。STORM数据集通过一个粗到精的处理流程，动态地考虑标签候选并提供可解释的思考，为MLLMs提供了一个通用且可信的排序思维范例。该数据集的创建过程包括收集和整合来自不同领域的多个数据集，并对数据进行标注和转换，使其适用于视觉评分任务。STORM数据集的应用领域包括图像质量评估、面部年龄估计、医学图像分级等，旨在解决MLLMs在视觉评分能力方面的不足，并为其提供一个全面的评估框架。

The STORM dataset is a comprehensive visual scoring dataset designed to enhance the trustworthy ranking regression capabilities of multimodal large language models (MLLMs). It covers 14 ranking regression datasets across five common visual scoring domains, containing 655K image-level pairs and their corresponding carefully curated visual question answering (VQA) content. The STORM dataset provides a generalizable and trustworthy ranking reasoning paradigm for MLLMs through a coarse-to-fine processing pipeline that dynamically considers label candidates and offers explainable reasoning. The development of the STORM dataset involves collecting and integrating multiple datasets from diverse domains, as well as annotating and transforming the data to make it suitable for visual scoring tasks. Application scenarios of the STORM dataset include image quality assessment, facial age estimation, medical image grading, and others, aiming to address the shortcomings of MLLMs in visual scoring capabilities and provide a comprehensive evaluation framework for such models.

提供机构：

浙江大学, 蚂蚁集团, 香港科技大学（广州）, 圣母大学

创建时间：

2025-06-02

原始信息汇总

STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset

作者信息

Jinhong Wang1*, Shuo Tong1*, Jian Liu2, Dongqi Tang2, Haochao Ying1, Hongxia Xu1, Danny Chen3, Jintai Chen4, Jian Wu1✝
机构：1ZJU, 2Ant Group, 3University of Notre Dame, 4HKUST (Guangzhou)
状态：Underreview of NIPS 2025
通讯作者：Jian Wu

数据集概述

名称：STORM
目标：评估多模态大语言模型（MLLMs）在视觉评级任务中的表现
特点：
- 包含14个有序回归数据集，覆盖5个常见视觉评级领域
- 655K图像-标签对及精心设计的VQAs
- 提供粗到细的处理流程，动态考虑标签候选并提供可解释的思路

关键组件

广泛领域数据（14个数据集，5个领域）
多样化级别标注
粗到细的CoT（Chain-of-Thought）
一体化视觉评级框架

数据集用途

评估MLLMs在需要理解评级标签基本有序关系的场景中的表现
支持进一步研究MLLMs在视觉评级任务中的性能优化

资源链接

数据集、基准和预训练模型：STORM项目页面
论文：arXiv链接

引用信息

bibtex @misc{wang2025stormbenchmarkingvisualrating, title={STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset}, author={Jinhong Wang and Shuo Tong and Jian liu and Dongqi Tang and Jintai Chen and Haochao Ying and Hongxia Xu and Danny Chen and Jian Wu}, year={2025}, eprint={2506.01738}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.01738}, }

搜集汇总

数据集介绍

构建方式

STORM数据集的构建采用了多阶段、多领域的综合方法，涵盖了图像质量评估（IQA）、图像美学评估（IAA）、面部年龄估计（FAE）、医学疾病分级（MDG）和历史日期估计（HDE）五个主要视觉评分领域。通过整合14个公开数据集，共计655K图像-文本对，研究人员采用GPT生成文本标签并结合人工调整，确保标签的语义准确性和多样性。此外，数据集引入了粗到细的思维链（CoT）处理流程，动态生成中间预测步骤，增强了模型对序数回归问题的理解和解释能力。

特点

STORM数据集的特点在于其广泛的领域覆盖和多样化的标注方式。数据集不仅包含基础的数值标签，还融合了丰富的文本描述，以强化模型对不同视觉评分任务特定语义的理解。此外，STORM通过粗到细的思维链（CoT）设计，为模型提供了序数回归的通用思考范式，显著提升了模型在跨领域任务中的零样本性能。数据集的多样性和层次化标注使其成为评估多模态大语言模型（MLLMs）视觉评分能力的理想基准。

使用方法

STORM数据集的使用方法主要包括模型的预训练和微调两个阶段。在预训练阶段，模型通过大规模的多领域数据学习基础的视觉评分能力；在微调阶段，模型利用粗到细的思维链（CoT）流程进行任务特定的优化。研究人员可以通过提供的基准测试框架，评估模型在域内和域外任务中的表现。此外，数据集还支持零样本评估，帮助验证模型的泛化能力。具体的使用代码、数据划分和预训练模型均已公开，便于后续研究和复现。

背景与挑战

背景概述

STORM数据集由浙江大学与蚂蚁集团等机构的研究团队于2025年6月提出，旨在解决多模态大语言模型（MLLMs）在视觉评级任务中的性能瓶颈。该数据集聚焦于序数回归问题，涵盖图像质量评估、面部年龄估计、医学图像分级等五大领域，包含14个子数据集共65.5万图像-文本对。其创新性在于通过粗粒度到细粒度的思维链（CoT）框架，为MLLMs提供可解释的序数推理范式，填补了通用视觉评级基准的空白。

当前挑战

STORM面临的核心挑战包含两方面：领域问题层面，需解决MLLMs在序数标签理解中的数值幻觉、跨任务泛化能力不足及零样本性能弱化问题；构建过程层面，需协调不同领域标签体系（如5级质量评分与116岁年龄跨度）、处理主观标注不一致性，并通过GPT生成与人工校验结合的方式构建混合文本-数字标签以降低模型偏差。

常用场景

经典使用场景

STORM数据集在多模态大语言模型（MLLMs）的视觉评分能力评估中具有重要应用。该数据集涵盖了图像质量评估、面部年龄估计、医学图像分级等多个视觉评分领域，通过提供丰富的图像-文本对和精心设计的视觉问答（VQA）任务，为MLLMs的序数回归（OR）能力提供了全面的基准测试。STORM的经典使用场景包括评估模型在零样本和跨域任务中的表现，以及通过粗到细的思维链（CoT）流程提升模型的解释性和可信度。

实际应用

在实际应用中，STORM数据集可广泛应用于图像质量监控、医疗影像分析、人脸识别系统等场景。例如，在医疗领域，STORM训练的模型能够对糖尿病视网膜病变图像进行精确分级，辅助医生进行早期诊断；在社交媒体平台，模型可自动评估用户上传图像的美学质量，优化内容推荐算法。其动态标签处理和零样本能力使得模型能够快速适应新兴任务，如历史照片的年代估计等。

衍生相关工作

STORM的发布推动了多个相关研究方向的进展。基于其框架衍生的经典工作包括：1）Q-Instruct通过低层次视觉指令微调进一步提升了MLLMs的评分能力；2）Q-Align系统性地模拟人类评分机制，优化了序数标签对齐；3）OrdinalCLIP探索了文本编码器在连续空间映射中的应用。这些工作共同构成了视觉评分领域的新范式，促进了多模态大模型在细粒度视觉理解方面的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集