DenseWorld-1M

github2025-07-01 更新2025-07-02 收录

下载链接：

https://github.com/lxtGH/DenseWorld-1M

下载链接

链接失效反馈

官方服务：

资源简介：

DenseWorld-1M是第一个大规模、详细、密集的接地字幕数据集，旨在填补现有数据集在详细描述、关系和大量对象描述方面的不足。它通过三阶段标注流程生成，包括开放世界感知、详细对象字幕生成和密集字幕合并。

DenseWorld-1M is the first large-scale, detailed, dense grounded caption dataset. It is designed to address the shortcomings of existing datasets in terms of detailed descriptions, relational semantics and descriptions of numerous objects. The dataset is created through a three-stage annotation pipeline, which includes open-world perception, detailed object caption generation and dense caption merging.

创建时间：

2025-06-24

原始信息汇总

DenseWorld-1M 数据集概述

基本描述

数据集名称: DenseWorld-1M
目标: 提供首个大规模、详细、密集的接地字幕数据集，用于现实世界场景理解。
特点: 包含视觉实体的地面位置和关系，提供详细描述和大量对象描述。

数据集构建

标注流程: 三阶段标注管道
1. 开放世界感知: 获取实体级掩码和标签。
2. 详细对象字幕生成: 在第一阶段掩码和标签的指导下生成对象级详细字幕。
3. 密集字幕合并: 将对象字幕和掩码合并为空间和关系密集字幕。
辅助模型:
- 详细区域字幕模型 (Detailed Region Caption model)
- 空间字幕合并模型 (Spatial Caption Merging model)

技术细节

应用场景:
- 视觉语言理解
- 视觉接地
- 区域字幕生成
图像分辨率: 高分辨率图像

当前状态

开放进度:
- 数据集清理中
- 开源流程正在审核
- 计划2024年7月底前在HuggingFace上完整开放
待完成事项:
- 发布不同模型的训练代码
- 发布数据集

引用信息

bibtex @misc{li2025denseworld1m, title={DenseWorld-1M: Towards Detailed Dense Grounded Caption in the Real World}, author={Xiangtai Li and Tao Zhang and Yanwei Li and Haobo Yuan and Shihao Chen and Yikang Zhou and Jiahao Meng and Yueyi Sun and Shilin Xu and Lu Qi and Tianheng Cheng and Yi Lin and Zilong Huang and Wenhao Huang and Jiashi Feng and Guang Shi}, year={2025}, eprint={2506.24102}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.24102}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，构建高质量的密集标注数据集对于推动多模态大语言模型的发展至关重要。DenseWorld-1M采用创新的三阶段标注流程：首先通过开放世界感知技术获取实体级别的掩码和标签；随后基于第一阶段的掩码和标签引导，生成包含丰富细节的对象级描述；最终将对象描述与掩码融合，形成具有空间关系和语义关联的密集标注。为提升标注效率和质量，研究团队专门开发了详细区域描述模型和空间描述融合模型两个视觉语言模型，确保了数据标注的准确性和一致性。

使用方法

DenseWorld-1M数据集为计算机视觉研究提供了重要资源。研究人员可利用该数据集开展多模态理解、视觉定位和区域描述生成等任务。在使用过程中，建议先熟悉数据集的三层标注结构：实体掩码、对象描述和融合后的密集标注。数据集支持端到端的模型训练，也可用于预训练模型的微调。为充分发挥数据集价值，使用者可结合提供的视觉语言模型，探索密集场景理解的新方法。数据集采用标准化格式存储，便于与主流深度学习框架集成。

背景与挑战

背景概述

DenseWorld-1M是由字节跳动Seed团队、武汉大学和北京大学的研究人员于2025年联合推出的多模态大规模语言模型（MLLMs）数据集，旨在填补现有标注数据集在视觉实体位置和关系描述方面的空白。该数据集通过三阶段标注流程，实现了对高分辨率图像中实体级掩码、详细对象描述以及空间关系密集标注的全面覆盖。作为首个面向真实世界的大规模密集接地标注数据集，DenseWorld-1M为视觉语言理解、视觉定位和区域描述生成等任务提供了重要基准，推动了细粒度视觉语义理解研究的发展。

当前挑战

该数据集主要解决视觉领域细粒度语义理解的三大挑战：现有标注数据缺乏实体空间位置信息、对象间关系描述不完整，以及高分辨率图像中密集对象描述的缺失问题。在构建过程中，研究团队面临标注效率与质量平衡的难题，为此创新性地开发了详细区域描述模型和空间标注融合模型。数据标注过程涉及跨模态信息对齐、大规模图像处理等复杂技术挑战，特别是如何确保百万级标注的语义一致性与空间准确性成为关键瓶颈。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，DenseWorld-1M数据集通过其百万级高分辨率图像与密集实体标注，为视觉语言模型提供了丰富的训练素材。该数据集特别适用于需要精细场景理解的视觉问答系统，模型通过解析图像中物体的空间关系与属性描述，能够生成符合人类认知的详细场景描述。其标注粒度覆盖从物体定位到交互关系的多层次信息，为复杂场景解析设立了新基准。

解决学术问题

该数据集有效解决了现有视觉语言数据集中实体定位模糊、关系描述缺失的学术痛点。通过引入三阶段标注流程，不仅实现了物体级别的详细描述，还构建了实体间的空间拓扑网络，为视觉关系推理、细粒度图像理解等研究方向提供了可靠的数据支撑。其创新性的标注框架显著提升了模型对真实世界复杂场景的语义解析能力。

实际应用

在自动驾驶环境感知系统中，DenseWorld-1M的密集标注特性可增强车辆对复杂路况的语义理解。智能安防领域利用其精确的物体定位能力，能够实现更准确的异常行为检测。此外，该数据集还为增强现实应用提供了丰富的场景知识库，使虚拟信息与真实环境的融合更加自然精准。

数据集最近研究