LongGRIT
收藏arXiv2025-11-07 更新2025-11-08 收录
下载链接:
https://github.com/StuHude/PixCLIP/
下载链接
链接失效反馈官方服务:
资源简介:
LongGRIT数据集是一个包含约150万个样本的高质量数据集,由CASIA、UCAS、NJU、SJTU、SEU等研究机构联合构建。该数据集旨在通过自动标注流程生成像素级定位的长文本描述,以提高模型在图像和文本处理上的精细粒度。LongGRIT数据集通过三个阶段的标注,从物体级、上下文级到细粒度表达式级,逐步细化目标物体的描述,从而获得大量高质量的细粒度长文本和区域对。该数据集主要用于提高模型在细粒度视觉语言理解任务中的性能,例如开放世界识别、检索和多模态大型语言模型等。
The LongGRIT dataset is a high-quality dataset containing approximately 1.5 million samples, jointly constructed by research institutions including CASIA, UCAS, NJU, SJTU, SEU and others. This dataset aims to generate long-text descriptions with pixel-level localization through an automatic annotation pipeline to improve the fine-grained performance of models in image and text processing. The LongGRIT dataset refines the descriptions of target objects step-by-step via three-stage annotation, ranging from object-level, context-level to fine-grained expression-level, thereby acquiring a large number of high-quality fine-grained long-text and region pairs. This dataset is primarily used to enhance the performance of models in fine-grained vision-language understanding tasks, such as open-world recognition, retrieval, and multimodal large language models (LLMs).
提供机构:
CASIA, UCAS, NJU, SJTU, SEU
创建时间:
2025-11-07
搜集汇总
数据集介绍

构建方式
LongGRIT数据集的构建采用自动化标注流程,通过多阶段渐进式描述生成方法实现。首先基于GRIT-20M数据集中的分割掩码,利用InternVL2-76B模型生成对象级视觉属性描述,再通过Griffon-G-26B模型补充空间上下文信息,最后借助DeepSeek-R1-70B将多维度描述融合为统一的长文本表达。为确保语义一致性,采用Qwen2-72B进行跨模态验证,自动过滤存在矛盾或无效语义的标注,最终形成包含150万样本的高质量掩码-文本对数据集。
特点
该数据集的核心特征体现在多粒度语义覆盖与高质量长文本标注的结合。每个样本均包含像素级精度的掩码区域与平均长度超百词的详细描述,不仅涵盖物体的形态、纹理等视觉属性,还完整保留其空间关系与场景上下文信息。区别于传统区域标注数据集的简短描述,LongGRIT通过大语言模型生成的富文本实现了对物体功能、材质、历史背景等深层语义的立体刻画,为细粒度视觉语言理解任务提供了前所未有的语义密度与逻辑深度。
使用方法
数据集适用于像素级视觉语言对齐任务的训练与评估,尤其擅长支撑掩码-长文本检索、区域指代表达理解等细粒度任务。使用时需将图像与对应掩码输入视觉编码器,同时将长文本描述输入语言编码器,通过对比学习优化跨模态特征对齐。评估阶段可计算掩码区域特征与文本特征的余弦相似度,在Ref-SAV等基准测试中衡量模型对复杂长文本的语义解析能力与区域定位精度,为新一代多模态模型提供标准化评测框架。
背景与挑战
背景概述
在视觉语言理解领域,CLIP模型通过对比学习实现了图像与文本的语义对齐,但其在处理细粒度视觉信息时存在局限。为突破这一瓶颈,2025年提出的LongGRIT数据集由中国科学院自动化研究所等机构联合构建,旨在通过像素级定位的长文本描述增强模型的局部语义理解能力。该数据集包含近150万样本,采用多阶段自动化标注流程,融合目标属性与空间上下文信息,显著推动了细粒度视觉语言对齐研究的发展,并为多模态大语言模型的训练提供了高质量数据支撑。
当前挑战
LongGRIT数据集致力于解决细粒度视觉语言对齐的核心挑战:传统CLIP模型因文本编码器长度限制难以处理长序列文本,且缺乏对局部图像区域的精准语义关联。在构建过程中,面临自动化标注质量控制的复杂性,需通过多轮大模型验证确保描述与图像区域的一致性;同时,数据规模与多样性的平衡亦是关键,需在保持像素级标注精度的前提下扩展样本覆盖范围,以支撑模型对任意粒度视觉内容的鲁棒理解。
常用场景
经典使用场景
在细粒度视觉语言理解领域,LongGRIT数据集为像素级图像-文本对齐研究提供了关键支撑。该数据集通过自动化标注流程生成的150万样本,包含精确的掩码区域与详细文本描述配对,使得模型能够学习从任意图像区域到对应长文本的语义映射。这种细粒度对齐能力在指代表达理解、区域分类等任务中展现出独特价值,为突破传统CLIP模型在局部视觉理解上的局限奠定了数据基础。
实际应用
在实际应用层面,LongGRIT支撑的模型技术已延伸至智能医疗、工业质检等专业领域。医疗影像分析中,模型可精确定位病灶区域并生成详细诊断描述;电子商务场景下,能够实现商品局部特征的精准检索与匹配。这些应用显著提升了自动化系统的理解精度与交互效率,为构建新一代视觉语义理解系统提供了可靠的技术底座。
衍生相关工作
基于LongGRIT的创新范式,研究者们相继提出了多项重要工作。PixCLIP框架通过三支路对齐架构实现了任意粒度像素-文本匹配,Alpha-CLIP则探索了掩码通道的表示潜力。这些衍生研究共同推进了细粒度多模态学习的技术边界,催生了Mask-Text检索等新兴任务方向,为后续的区域级视觉推理研究开辟了新的技术路径。
以上内容由遇见数据集搜集并总结生成



