lmms-lab/RefCOCO

Name: lmms-lab/RefCOCO
Creator: lmms-lab
Published: 2024-03-08 03:23:40
License: 暂无描述

Hugging Face2024-03-08 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/lmms-lab/RefCOCO

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个格式化版本的RefCOCO数据集，用于`lmms-eval`管道中，以便一键评估大规模多模态模型。数据集包含question_id、image、question、answer、segmentation、bbox、iscrowd和file_name等特征，并划分为val、test、testA和testB四个部分。

提供机构：

lmms-lab

原始信息汇总

数据集概述

数据集信息

特征

question_id: 字符串类型
image: 图像类型
question: 字符串类型
answer: 字符串序列
segmentation: 浮点数序列
bbox: 浮点数序列
iscrowd: 整数类型
file_name: 字符串类型

数据分割

val: 1548717880.0 字节，8811 个样本
test: 876787122.0 字节，5000 个样本
testA: 340830323.0 字节，1975 个样本
testB: 317959580.0 字节，1810 个样本

数据大小

下载大小: 2278337287 字节
数据集大小: 3084294905.0 字节

配置

config_name: default
- data_files:
  - val: data/val-*
  - test: data/test-*
  - testA: data/testA-*
  - testB: data/testB-*

搜集汇总

数据集介绍

构建方式

在视觉语言理解领域，RefCOCO数据集通过众包标注平台精心构建，其核心在于建立图像中特定对象与自然语言指代表达之间的精确关联。标注过程中，参与者需在给定图像内选定目标对象，并生成描述该对象的自然语言表达式，随后由其他参与者依据表达式在图像中定位对应对象，以此循环确保指代关系的准确性与一致性。该流程不仅涵盖了对象的边界框与分割掩码标注，还整合了丰富的语义信息，为多模态理解研究奠定了坚实基础。

特点

RefCOCO数据集以其大规模、细粒度的视觉指代标注而著称，涵盖超过数万张自然场景图像及数十万条指代表达。其独特之处在于提供了对象级别的边界框、分割掩码及语义描述，支持对复杂场景中特定实体的精准定位与理解。数据集进一步划分为多个测试子集，如testA与testB，分别聚焦于人物与非人物对象，便于模型在不同语义范畴下的性能评估。这种结构化设计显著提升了其在多模态模型基准测试中的实用价值。

使用方法

该数据集主要用于评估大型多模态模型在视觉指代理解任务上的性能，用户可通过lmms-eval评估框架实现一键式评测。典型流程包括加载预处理后的图像与对应指代表达，模型需根据自然语言描述在图像中预测目标对象的边界框或分割区域。数据集提供的标准划分确保了评测结果的可比性，研究者可依据测试子集深入分析模型在特定对象类别上的表现，从而推动视觉语言交互技术的迭代与优化。

背景与挑战

背景概述

在计算机视觉与自然语言处理的交叉领域，视觉指代表达（Referring Expression Comprehension）旨在通过自然语言描述精准定位图像中的特定对象，是推动多模态智能理解的关键任务。RefCOCO数据集由Kazemzadeh等人于2014年提出，作为ReferItGame项目的核心组成部分，该数据集通过众包标注构建，涵盖了日常场景中丰富的对象指代关系。其创建初衷在于解决视觉与语言对齐的复杂性问题，为模型提供细粒度的跨模态关联数据，显著促进了指代表达识别、视觉问答及多模态预训练等领域的研究进展，成为该方向最具影响力的基准之一。

当前挑战

RefCOCO数据集所针对的视觉指代表达任务，核心挑战在于处理语言描述的多样性与视觉场景的复杂性之间的鸿沟。模型需准确解析含有代词、关系从句或属性修饰的指代表达，并在遮挡、小目标或多相似对象共存的情况下实现精准定位。数据构建过程中，挑战主要源于众包标注的一致性保障，例如不同标注者对同一对象的描述存在主观差异，以及边界框标注在密集或部分可见对象上的歧义性。此外，数据集的场景与对象类别分布不均衡，也为模型的泛化能力带来了考验。

常用场景

经典使用场景

在视觉与语言交叉领域的研究中，RefCOCO数据集作为指代表达理解任务的核心基准，常被用于评估模型对图像中特定对象的定位与描述能力。该数据集通过提供自然场景图像及对应的语言指代表达，要求模型准确识别并分割出被描述的目标对象，从而推动视觉定位技术的精细化发展。其典型应用场景涵盖视觉问答、图像检索以及人机交互系统，为多模态理解提供了关键的数据支撑。

解决学术问题

RefCOCO数据集有效解决了视觉指代表达理解中的若干核心学术问题，包括如何在复杂场景中精确关联语言描述与视觉实体，以及如何克服对象遮挡、多义性表达等挑战。通过提供大规模标注数据，该数据集促进了端到端视觉定位模型的发展，显著提升了模型在跨模态对齐、语义分割及边界框预测等方面的性能，为多模态人工智能的理论突破奠定了实证基础。

衍生相关工作

围绕RefCOCO数据集，学术界涌现出一系列经典研究工作，例如基于注意力机制的视觉定位模型MAttNet，以及融合图卷积网络的指代表达理解方法。这些工作不仅深化了对多模态融合机制的理解，还催生了如RefCOCO+和RefCOCOg等扩展数据集，进一步推动了指代表达分割、视觉对话生成等衍生任务的发展，形成了持续演进的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集