DenseFusion-1M

Name: DenseFusion-1M
Creator: maas
Published: 2025-12-26 16:17:05
License: 暂无描述

魔搭社区2025-12-26 更新2024-09-07 收录

下载链接：

https://modelscope.cn/datasets/BAAI/DenseFusion-1M

下载链接

链接失效反馈

官方服务：

资源简介：

- [Paper] https://arxiv.org/abs/2407.08303 - [GitHub] https://github.com/baaivision/DenseFusion ## Introduction - An image is worth a thousand words". Comprehensive image descriptions are essential for multi-modal perception, while images contains various visual elements of different granularities that are challenging to harness. - We propose Perceptural Fusion to integrate the diverse visual perception experts for capturing visual elements and adopt a MLLM as a centric pivot for comprehensive perception. - We thereby provide DenseFusion-1M dataset for highly informative image descriptions with various visual details, including rich OCR information, accurate object and position recognition, and external knowledge, etc. Detaset details: Comprehensive image descriptions obtained through perceptual fusion of different visual experts. Usage: It is constructed for comprehensive perception ability for multi-modal large language model and show potentials for fine-grained text conditioned image generation. DenseFusion Dataset Card - DenseFusion-1M: DenseFusion-1M/DenseFusion-1M.jsonl is generated by our caption engine through perceptual fusion. - DenseFusion-4V-100K: DenseFusion-4V-100k/DenseFusion-4V-100k.jsonl is generated by GPT-4V through perceptual fusion. This project is under the policy of MIT License.

- [论文] https://arxiv.org/abs/2407.08303 - [GitHub] https://github.com/baaivision/DenseFusion ## 引言 - “一图胜千言”。详尽的图像描述对多模态感知至关重要，但图像包含不同粒度的多样视觉元素，难以被充分利用。 - 我们提出感知融合（Perceptural Fusion）框架，以整合各类视觉感知专家模块来捕捉视觉元素，并采用多模态大语言模型（MLLM）作为核心枢纽，实现全面感知。 - 为此，我们构建了DenseFusion-1M数据集，用于生成涵盖各类视觉细节的高信息量图像描述，包括丰富的光学字符识别（OCR）信息、精准的物体与位置识别结果以及外部知识等。数据集详情：通过不同视觉专家模块的感知融合得到的详尽图像描述。应用场景：本数据集旨在赋能多模态大语言模型的全面感知能力，同时在细粒度文本条件图像生成任务中展现出应用潜力。 DenseFusion数据集卡片 - DenseFusion-1M：该子集的DenseFusion-1M/DenseFusion-1M.jsonl文件由我们的图像字幕生成引擎通过感知融合流程生成。 - DenseFusion-4V-100K：该子集的DenseFusion-4V-100k/DenseFusion-4V-100k.jsonl文件由GPT-4V通过感知融合流程生成。本项目遵循MIT开源许可协议。

提供机构：

maas

创建时间：

2024-09-12

搜集汇总

数据集介绍