five

Rexverse-2M

收藏
arXiv2024-11-27 更新2024-11-29 收录
下载链接:
https://github.com/IDEA-Research/ChatRex
下载链接
链接失效反馈
官方服务:
资源简介:
Rexverse-2M数据集由国际数字经济学院(IDEA)开发,旨在支持多模态大语言模型(MLLM)的感知和理解任务的联合训练。该数据集包含200万条图像-区域-文本注释三元组,具有多层次的粒度。数据集的创建过程采用全自动化的数据引擎,包括图像字幕生成、对象或短语对齐以及区域描述细化等模块。Rexverse-2M数据集主要应用于提升MLLM在对象检测、区域理解和图像对话等任务中的表现,旨在解决现有模型在精细感知能力上的不足。

The Rexverse-2M dataset, developed by the International Digital Economy Academy (IDEA), is intended to support joint training for perception and understanding tasks of multimodal large language models (MLLMs). It contains 2 million image-region-text annotation triplets with multi-level granularity. The dataset’s construction adopts a fully automated data engine, which encompasses modules such as image caption generation, object/phrase alignment, and region description refinement. Primarily, the Rexverse-2M dataset is applied to improve the performance of MLLMs in tasks like object detection, region understanding and image dialogue, aiming to resolve the deficiencies of existing models in fine-grained perceptual capabilities.
提供机构:
国际数字经济学院(IDEA)
创建时间:
2024-11-27
搜集汇总
数据集介绍
main_image_url
构建方式
Rexverse-2M数据集通过一个全自动的数据引擎构建,该引擎由三个主要模块组成:图像描述生成、对象定位和区域描述细化。首先,使用InternVL2-8B模型生成图像描述;接着,利用SpaCy提取名词短语,并通过Grounding DINO 1.5模型将这些短语与图像中的对象进行定位;最后,通过LLAMA3-8B模型对区域描述进行过滤和重写,以确保描述的准确性和相关性。
特点
Rexverse-2M数据集的特点在于其多粒度注释,支持感知和理解任务的联合训练。数据集包含2.1百万张带有描述的图像,10.2百万个带有类别标签的区域注释,2.5百万个带有短语描述的区域注释,以及2.5百万个带有详细描述的区域注释。此外,数据集还包含2.4百万个带有引用描述的区域注释,以及776K个带有接地对话数据的注释。
使用方法
Rexverse-2M数据集可用于训练和评估多模态大语言模型(MLLM)的感知和理解能力。数据集的注释可以用于检测、区域描述、图像描述和接地对话等多种任务。通过标准的两阶段训练方法,模型可以在保留感知能力的同时,逐步获取多模态理解和对话技能。
背景与挑战
背景概述
Rexverse-2M数据集由国际数字经济学院(IDEA)的研究团队开发,旨在解决多模态大语言模型(MLLM)在视觉感知能力上的不足。该数据集构建于2024年,主要研究人员包括Qing Jiang、Gen Luo、Yuqin Yang等。核心研究问题是如何在模型设计和数据开发两个层面上弥合MLLM在感知与理解之间的差距。Rexverse-2M数据集通过多粒度标注,支持感知与理解任务的联合训练,对提升MLLM的感知能力和多模态理解性能具有重要影响。
当前挑战
Rexverse-2M数据集面临的挑战主要集中在两个方面:一是解决多模态大语言模型在视觉感知任务中的低召回率问题,如在COCO数据集上,最先进的模型Qwen2-VL仅达到43.9%的召回率;二是构建过程中需要克服数据平衡的难题,确保数据集能够有效支持感知与理解任务的联合训练。此外,数据集的自动化生成和高分辨率视觉输入的需求也为数据集的构建带来了技术挑战。
常用场景
经典使用场景
Rexverse-2M数据集在多模态大语言模型(MLLM)的训练中发挥了关键作用,特别是在视觉感知和理解任务的联合训练中。该数据集通过提供多粒度的图像-区域-文本注释三元组,支持模型在对象检测、区域描述和图像理解等任务中的表现。例如,在对象检测任务中,模型可以利用数据集中的高分辨率图像和详细的区域注释,提升其在复杂场景中的检测精度。
解决学术问题
Rexverse-2M数据集解决了多模态大语言模型在视觉感知和理解任务中的数据不足问题。通过提供多粒度的注释,该数据集帮助模型在视觉感知任务中实现更高的召回率和精度,同时在理解任务中保持竞争力。这不仅提升了模型的整体性能,还为研究者提供了一个标准化的基准,用于评估和比较不同模型的感知和理解能力。
衍生相关工作
Rexverse-2M数据集的发布催生了一系列相关研究工作,特别是在多模态大语言模型的视觉感知和理解领域。例如,基于该数据集的训练,研究者开发了ChatRex模型,该模型在对象检测和区域描述任务中表现出色。此外,数据集的多粒度注释方法也被其他研究者借鉴,用于构建更复杂和精细的多模态数据集,进一步推动了该领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作