GSEval

github2025-03-14 更新2025-03-15 收录

下载链接：

https://github.com/hustvl/GroundingSuite

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含9.56M的训练样本和3,800个评估实例，用于复杂的多粒度像素定位任务。

This dataset contains 9.56 million training samples and 3,800 evaluation instances, intended for complex multi-granularity pixel localization tasks.

创建时间：

2025-03-08

原始信息汇总

GroundingSuite 数据集概述

数据集简介

GroundingSuite 是一个用于测量复杂多粒度像素级定位的全面框架。该框架包括一个自动化的基于 VLM 的标注管道，一个大规模数据集，一个全面的评估基准，以及展示了该方法有效性的最先进性能指标。

数据集特点

自动化的 VLM 标注管道：显著提高了标注效率
大规模数据集：包含 9.56M 多样化的训练样本
全面的评估基准：包含 3,800 个精心策划的实例
标注效率：比 GLaMM 快 4.5 倍

数据集构成

训练集：9.56M 个具有多样化指代表达式的样本
评估基准：3,800 个精心策划的实例

数据集下载

可以通过 Hugging Face 下载 GSEval。

使用方法

提供了基本的命令行使用方式以及参数配置，支持可视化结果生成。

数据格式

真实数据文件格式 (JSONL)： json {"idx": 1, "image_path": "images/example.jpg", "box": [10, 20, 100, 200], "class_id": 0, "label": "dog"}
预测数据文件格式 (JSONL)： json {"idx": 1, "image_path": "images/example.jpg", "box": [15, 25, 105, 205]}

评估指标

Box 模式：计算 IoU（交并比）和准确度（IoU > 阈值）
Mask 模式：计算 GIoU（平均 IoU）

引用

如果您的研究或应用中使用了 GroundingSuite，请考虑给我们一个 star ⭐ 并使用以下 BibTeX 条目引用：

bibtex @misc{hu2025groundingsuite, title={GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding}, author={Rui Hu and Lianghui Zhu and Yuxuan Zhang and Tianheng Cheng and Lei Liu and Heng Liu and Longjin Ran and Xiaoxin Chen and Wenyu Liu and Xinggang Wang}, journal={arXiv preprint arXiv:2503.10596}, year={2025} }

搜集汇总

数据集介绍

构建方式

GroundingSuite数据集的构建，采用了一种自动化的VLM（Visual Language Model）标注流程，该流程通过像素级的标注提高了标注效率。数据集包含9.56M的训练样本，这些样本具有多样化的指代表达，并通过精心策划的3,800个实例构成了全面的评估基准。

特点

该数据集的主要特点在于其自动化标注流程，大规模的数据量，以及综合性的评估体系。自动化VLM标注流程大幅提升了标注效率，大规模的数据集覆盖了多样化的指代表达，确保了模型的泛化能力，而评估基准则提供了对模型性能全面而深入的评估。

使用方法

使用该数据集时，用户可以通过提供的Python脚本进行基本的使用，如加载图像、标注文件和预测文件，设置相关参数（如IoU阈值、是否可视化等），以及选择评估模式（框选或遮罩）。此外，数据集还提供了JSONL格式的标注文件，方便用户进行数据读取和处理。

背景与挑战

背景概述

GroundingSuite数据集，由华中科技大学与vivo AI Lab的研究人员共同研发，旨在解决复杂多粒度像素级定位的难题。该数据集于2025年3月14日发布，包含自动化视觉语言模型（VLM）标注框架，大规模的多样化训练样本，全面评估的基准数据，以及先进的性能指标。GroundingSuite的创建，对图像识别与自然语言处理领域产生了显著影响，为相关研究提供了重要的数据资源。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：如何实现高效的像素级定位标注，以及如何构建一个既全面又精确的评估基准。此外，数据集需要解决的领域问题是提升多粒度像素级定位的准确性和效率，这对于提升图像识别与理解的研究和应用至关重要。

常用场景

经典使用场景

在视觉领域，像素级的地标定位任务对于图像理解与物体识别具有重要意义。GSEval数据集为此提供了自动化的大规模标注框架，其经典使用场景在于辅助机器学习模型准确识别并定位图像中的复杂多粒度地标，从而提升视觉模型的智能理解水平。

衍生相关工作

基于GSEval数据集，研究者们进一步开展了一系列相关工作，如开发新的地标定位算法、提出更为精确的评估指标等。这些衍生工作不仅推动了视觉理解领域的理论发展，也为相关技术的实际应用提供了有力的技术支撑。

数据集最近研究