DenseWorld-1M

Name: DenseWorld-1M
Creator: 字节跳动, 武汉大学, 北京大学
Published: 2025-07-01 01:51:25
License: 暂无描述

arXiv2025-07-01 更新2025-07-02 收录

下载链接：

https://github.com/lxtGH/DenseWorld-1M

下载链接

链接失效反馈

官方服务：

资源简介：

DenseWorld-1M是一个大规模、详细、密集的视觉语言数据集，用于多模态大型语言模型（MLLMs）的预训练、监督微调和后训练。该数据集包含实体级别的掩码和标签，对象级别的详细描述，以及场景级别的密集地描述。DenseWorld-1M数据集的创建过程分为三个阶段：开放世界感知、详细对象描述生成和密集描述合并。DenseWorld-1M数据集旨在解决现有数据集缺乏详细、密集的对象描述、地描述和对象位置信息的问题，并为下游任务如视觉语言理解、视觉定位和区域描述生成提供数据支持。

DenseWorld-1M is a large-scale, detailed, dense vision-language dataset tailored for pre-training, supervised fine-tuning, and post-training of multimodal large language models (MLLMs). This dataset encompasses entity-level masks and labels, granular object-level descriptions, and dense scene-level descriptions. The construction of the DenseWorld-1M dataset comprises three sequential stages: open-world perception, detailed object description generation, and dense description merging. The DenseWorld-1M dataset aims to mitigate the limitations of existing datasets, which lack detailed and dense object descriptions, scene-level descriptions, and precise object location information, while providing data support for downstream tasks including vision-language understanding, visual localization, and region description generation.

提供机构：

字节跳动, 武汉大学, 北京大学

创建时间：

2025-07-01

原始信息汇总

DenseWorld-1M 数据集概述

基本信息

数据集名称: DenseWorld-1M
研究领域: 计算机视觉、多模态大语言模型（MLLMs）
贡献机构: Bytedance Seed、武汉大学、北京大学
相关论文: arXiv链接
数据集状态: 清理中，预计2025年7月底前在HuggingFace开源

数据集特点

规模: 大规模（百万级）
标注类型: 密集、详细、基于实体的描述
标注内容:
- 实体级掩码和标签
- 对象级详细描述
- 空间和关系密集描述

标注流程

开放世界感知: 获取实体级掩码和标签
详细对象描述生成: 基于掩码和标签生成对象级详细描述
密集描述合并: 将对象描述和掩码合并为空间和关系密集描述

辅助工具

视觉语言模型（VLM）:
- Detailed Region Caption模型
- Spatial Caption Merging模型

应用场景

视觉语言理解
视觉定位
区域描述生成

引用信息

bibtex @misc{li2025denseworld1m, title={DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World}, author={Xiangtai Li and Tao Zhang and Yanwei Li and Haobo Yuan and Shihao Chen and Yikang Zhou and Jiahao Meng and Yueyi Sun and Shilin Xu and Lu Qi and Tianheng Cheng and Yi Lin and Zilong Huang and Wenhao Huang and Jiashi Feng and Guang Shi}, year={2025}, eprint={2506.24102}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.24102}, }

搜集汇总

数据集介绍

构建方式

DenseWorld-1M数据集的构建采用了一种创新的三阶段标注流程。首先，通过开放世界感知技术获取实体级别的掩码和标签；其次，在第一阶段生成的掩码和标签的指导下，生成详细的对象级描述；最后，将对象描述和掩码合并为空间和关系的密集描述。为了加速标注过程并提高描述质量，研究团队还开发了两个视觉语言模型（VLM）：详细区域描述模型（DRC）和空间描述合并模型（SCM）。这种构建方法不仅高效，还能确保数据的高质量和多样性。

特点

DenseWorld-1M数据集以其大规模、高分辨率和详细的密集描述而著称。该数据集包含超过100万张高分辨率图像，每张图像都配有详细的密集描述和实体级别的掩码标注。与现有数据集相比，DenseWorld-1M在描述密度、实体覆盖率和空间关系标注方面具有显著优势。此外，数据集还涵盖了广泛的场景和对象类别，使其成为多模态大语言模型（MLLM）训练和评估的理想选择。

使用方法

DenseWorld-1M数据集适用于多种视觉语言任务，包括视觉语言理解、视觉定位和区域描述生成。研究人员可以通过该数据集训练和评估MLLM在复杂场景中的理解和生成能力。具体使用方法包括：利用数据集进行预训练、监督微调和后训练；在视觉定位任务中评估模型的实体识别和空间关系理解能力；在区域描述生成任务中测试模型的详细描述生成能力。数据集和模型的发布地址为https://github.com/lxtGH/DenseWorld-1M，方便研究人员下载和使用。

背景与挑战

背景概述

DenseWorld-1M是由字节跳动Seed团队、武汉大学和北京大学的研究人员于2025年共同推出的首个大规模、高分辨率、密集接地标注的真实世界场景数据集。该数据集旨在解决多模态大语言模型（MLLMs）在细粒度视觉理解方面的不足，特别是在详细物体描述、空间关系和像素级标注方面的缺失。DenseWorld-1M通过三阶段标注流程（开放世界感知、详细物体描述生成和密集标注合并）实现了对复杂场景的全面解析，其标注内容包含超过2300万物体描述和2360万物体掩码。该数据集的推出为视觉语言理解、视觉定位和区域描述生成等任务提供了重要支持，显著提升了模型在细粒度视觉理解方面的性能。

当前挑战

DenseWorld-1M面临的挑战主要包括两个方面：领域问题挑战和构建过程挑战。在领域问题方面，现有数据集普遍存在标注稀疏、缺乏空间关系和像素级定位信息的问题，难以支持模型对复杂场景的细粒度理解。在构建过程中，大规模高质量标注需要巨大的计算和人力成本，如何利用现有视觉基础模型和MLLMs设计自动化标注流程是一大挑战。此外，确保物体描述与掩码的高精度对齐、处理高分辨率图像的复杂性以及减少标注过程中的冗余计算也是关键技术难点。为解决这些问题，研究团队开发了详细区域描述模型（DRC）和空间标注合并模型（SCM）来优化标注流程。

常用场景

经典使用场景

DenseWorld-1M数据集在计算机视觉领域被广泛应用于多模态大语言模型（MLLMs）的训练与评估。其高分辨率图像与密集的实体级标注使其成为视觉语言理解、视觉定位和区域描述生成任务的理想选择。该数据集通过三阶段标注流程，提供了实体级掩码、详细对象描述和空间关系密集标注，为模型提供了丰富的上下文信息。在复杂场景理解任务中，研究者可利用其像素级标注验证模型对细粒度视觉实体的感知能力，或通过对象级关系标注提升模型的空间推理性能。

解决学术问题

该数据集解决了现有视觉语言数据集中细粒度标注缺失的核心问题。传统数据集如COCO或Visual Genome仅提供粗略的全局描述或简单边界框，难以支撑模型对实体位置、属性和关系的联合建模。DenseWorld-1M通过融合SAM分割掩码与MLLM生成的密集描述，首次实现了百万级图像的像素对齐文本标注，为开放词汇视觉定位、跨模态实体关联等前沿研究提供了基准。其标注体系显著提升了模型在MMBench等测评中细粒度视觉问答的准确率，填补了密集场景理解的数据空白。

衍生相关工作

该数据集催生了多项突破性研究：DRC模型创新性地融合视觉特征与ID嵌入，在RefCOCOg区域描述任务中CIDEr指标提升8.3%；SCM模型开创了基于子图融合的密集描述生成范式；后续工作OMG-LLaVA继承其像素级推理框架，在NeurIPS 2024提出跨层级视觉理解架构。相关技术已扩展至视频领域，如VGR项目利用类似标注策略构建时序密集描述数据集，推动动态场景理解研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集