five

DenseFusion-1M

收藏
魔搭社区2025-12-26 更新2024-09-07 收录
下载链接:
https://modelscope.cn/datasets/BAAI/DenseFusion-1M
下载链接
链接失效反馈
官方服务:
资源简介:
- [Paper] https://arxiv.org/abs/2407.08303 - [GitHub] https://github.com/baaivision/DenseFusion ## Introduction - An image is worth a thousand words". Comprehensive image descriptions are essential for multi-modal perception, while images contains various visual elements of different granularities that are challenging to harness. - We propose Perceptural Fusion to integrate the diverse visual perception experts for capturing visual elements and adopt a MLLM as a centric pivot for comprehensive perception. - We thereby provide DenseFusion-1M dataset for highly informative image descriptions with various visual details, including rich OCR information, accurate object and position recognition, and external knowledge, etc. Detaset details: Comprehensive image descriptions obtained through perceptual fusion of different visual experts. Usage: It is constructed for comprehensive perception ability for multi-modal large language model and show potentials for fine-grained text conditioned image generation. DenseFusion Dataset Card - DenseFusion-1M: DenseFusion-1M/DenseFusion-1M.jsonl is generated by our caption engine through perceptual fusion. - DenseFusion-4V-100K: DenseFusion-4V-100k/DenseFusion-4V-100k.jsonl is generated by GPT-4V through perceptual fusion. This project is under the policy of MIT License.

- [论文] https://arxiv.org/abs/2407.08303 - [GitHub] https://github.com/baaivision/DenseFusion ## 引言 - “一图胜千言”。详尽的图像描述对多模态感知至关重要,但图像包含不同粒度的多样视觉元素,难以被充分利用。 - 我们提出感知融合(Perceptural Fusion)框架,以整合各类视觉感知专家模块来捕捉视觉元素,并采用多模态大语言模型(MLLM)作为核心枢纽,实现全面感知。 - 为此,我们构建了DenseFusion-1M数据集,用于生成涵盖各类视觉细节的高信息量图像描述,包括丰富的光学字符识别(OCR)信息、精准的物体与位置识别结果以及外部知识等。 数据集详情:通过不同视觉专家模块的感知融合得到的详尽图像描述。 应用场景:本数据集旨在赋能多模态大语言模型的全面感知能力,同时在细粒度文本条件图像生成任务中展现出应用潜力。 DenseFusion数据集卡片 - DenseFusion-1M:该子集的DenseFusion-1M/DenseFusion-1M.jsonl文件由我们的图像字幕生成引擎通过感知融合流程生成。 - DenseFusion-4V-100K:该子集的DenseFusion-4V-100k/DenseFusion-4V-100k.jsonl文件由GPT-4V通过感知融合流程生成。 本项目遵循MIT开源许可协议。
提供机构:
maas
创建时间:
2024-09-12
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DenseFusion-1M是一个通过感知融合技术生成全面图像描述的数据集,包含丰富的视觉细节如OCR信息、对象识别和外部知识,旨在增强多模态大型语言模型的感知能力并支持细粒度图像生成。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作