five

DeepSeek-VL2

收藏
arXiv2024-12-14 更新2024-12-17 收录
下载链接:
https://github.com/deepseek-ai/DeepSeek-VL2
下载链接
链接失效反馈
官方服务:
资源简介:
DeepSeek-VL2是由深度搜索人工智能团队创建的一个先进的视觉语言数据集,旨在提升多模态理解能力。该数据集包含了约120万条数据,涵盖了图像描述、对话样本、光学字符识别、视觉问答等多种任务。数据集的创建过程结合了多种公开数据集和自建数据集,通过多阶段的预处理和质量控制,确保了数据的高质量和多样性。该数据集主要应用于视觉问答、文档理解、视觉推理等领域,旨在解决复杂的多模态任务,提升模型的泛化能力和性能。

DeepSeek-VL2 is an advanced vision-language dataset developed by DeepSeek AI team, aiming to enhance multimodal understanding capabilities. This dataset contains approximately 1.2 million instances, covering various tasks including image captioning, conversational samples, optical character recognition (OCR), visual question answering (VQA), and more. The dataset is constructed by integrating multiple public datasets and self-built datasets, with multi-stage preprocessing and quality control implemented to ensure high data quality and diversity. This dataset is primarily applied in fields such as visual question answering, document understanding, visual reasoning, and others, with the goal of addressing complex multimodal tasks and improving the generalization ability and performance of models.
提供机构:
深度搜索人工智能
创建时间:
2024-12-14
原始信息汇总

DeepSeek-VL2 数据集概述

1. 简介

DeepSeek-VL2 是一个先进的混合专家(Mixture-of-Experts, MoE)视觉-语言模型系列,显著优于其前身 DeepSeek-VL。DeepSeek-VL2 在多种任务中表现出色,包括视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位。该模型系列包含三个变体:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别激活了 1.0B、2.8B 和 4.5B 参数。DeepSeek-VL2 在参数相似或更少的情况下,与现有的开源密集和 MoE 模型相比,实现了具有竞争力的或最先进的性能。

2. 发布

  • 2024-12-13:发布 DeepSeek-VL2 系列,包括 DeepSeek-VL2-tinyDeepSeek-VL2-smallDeepSeek-VL2

3. 模型下载

DeepSeek-VL2 系列包括 DeepSeek-VL2-tinyDeepSeek-VL2-smallDeepSeek-VL2,支持学术和商业社区的广泛研究。使用该模型需遵守 License 部分 中规定的条款。

Huggingface

模型 序列长度 下载链接
DeepSeek-VL2-tiny 4096 🤗 Hugging Face
DeepSeek-VL2-small 4096 🤗 Hugging Face
DeepSeek-VL2 4096 🤗 Hugging Face

4. 快速开始

安装

Python >= 3.8 环境下,通过运行以下命令安装必要的依赖项:

shell pip install -e .

简单推理示例

python import torch from transformers import AutoModelForCausalLM

from deepseek_vl.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM from deepseek_vl.utils.io import load_pil_images

指定模型路径

model_path = "deepseek-ai/deepseek-vl2-small" vl_chat_processor: DeepseekVLV2Processor = DeepseekVLV2Processor.from_pretrained(model_path) tokenizer = vl_chat_processor.tokenizer

vl_gpt: DeepseekVLV2ForCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True) vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

单张图片对话示例

conversation = [ { "role": "<|User|>", "content": "<image> <|ref|>The giraffe at the back.<|/ref|>.", "images": ["./images/visual_grounding.jpeg"], }, {"role": "<|Assistant|>", "content": ""}, ]

加载图片并准备输入

pil_images = load_pil_images(conversation) prepare_inputs = vl_chat_processor( conversations=conversation, images=pil_images, force_batchify=True, system_prompt="" ).to(vl_gpt.device)

运行图像编码器以获取图像嵌入

inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

运行模型以获取响应

outputs = vl_gpt.language.generate( inputs_embeds=inputs_embeds, attention_mask=prepare_inputs.attention_mask, pad_token_id=tokenizer.eos_token_id, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, max_new_tokens=512, do_sample=False, use_cache=True )

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True) print(f"{prepare_inputs[sft_format][0]}", answer)

5. 许可证

代码仓库的许可证为 MIT License。DeepSeek-VL2 模型的使用受 DeepSeek Model License 约束。DeepSeek-VL2 系列支持商业使用。

6. 引用

@misc{wu2024deepseekvl2mixtureofexpertsvisionlanguagemodels, title={DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding}, author={Zhiyu Wu and Xiaokang Chen and Zizheng Pan and Xingchao Liu and Wen Liu and Damai Dai and Huazuo Gao and Yiyang Ma and Chengyue Wu and Bingxuan Wang and Zhenda Xie and Yu Wu and Kai Hu and Jiawei Wang and Yaofeng Sun and Yukun Li and Yishi Piao and Kang Guan and Aixin Liu and Xin Xie and Yuxiang You and Kai Dong and Xingkai Yu and Haowei Zhang and Liang Zhao and Yisong Wang and Chong Ruan}, year={2024}, eprint={2412.10302}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.10302}, }

7. 联系

如有任何问题,请提交 issue 或联系我们:service@deepseek.com

搜集汇总
数据集介绍
main_image_url
构建方式
DeepSeek-VL2数据集的构建过程分为三个阶段:视觉-语言对齐数据、视觉-语言预训练数据和监督微调数据。在视觉-语言对齐阶段,使用了ShareGPT4V数据集,包含约120万条标注和对话样本,用于训练视觉编码器与语言模型的连接器。预训练阶段则结合了视觉-语言数据和纯文本数据,比例约为70%对30%,其中视觉-语言数据包括开放数据集如WIT、WikiHow以及自建数据集,旨在提升模型的多语言能力。监督微调阶段则使用了多样化的开放数据集和高质量的自建问答对,以进一步提升模型的指令遵循能力和对话表现。
特点
DeepSeek-VL2数据集的特点在于其高质量、多样性和广泛覆盖性。数据集不仅包含了丰富的视觉-语言对齐数据,还通过多阶段的预训练和微调,确保了模型在多种任务上的泛化能力。此外,数据集的构建过程中特别注重了图像描述的质量控制,通过引入OCR提示、元信息和原始描述作为生成提示,提升了图像描述的准确性和多样性。数据集还涵盖了光学字符识别、视觉问答、文档理解等多种任务,使得模型能够在广泛的视觉-语言任务中表现出色。
使用方法
DeepSeek-VL2数据集可用于多种视觉-语言任务的训练和评估,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等。使用者可以通过预训练阶段的数据进行模型的初步训练,随后利用监督微调数据对模型进行进一步优化。数据集的多样性和高质量标注使其适用于多种任务的基准测试和模型性能评估。此外,数据集的开源代码和预训练模型为研究者提供了便捷的实验平台,促进了视觉-语言领域的进一步研究与应用。
背景与挑战
背景概述
DeepSeek-VL2是由DeepSeek-AI团队开发的一种先进的混合专家(Mixture-of-Experts, MoE)视觉语言模型系列,旨在通过视觉和语言的深度融合,提升多模态理解能力。该数据集的核心研究问题是如何在处理高分辨率图像和多模态任务时,实现高效的视觉编码和语言推理。DeepSeek-VL2通过引入动态平铺视觉编码策略和多头部潜在注意力机制,显著提升了模型在视觉问答、光学字符识别、文档/表格/图表理解等任务中的表现。该数据集的构建和模型训练由多个核心研究人员和机构共同完成,旨在推动视觉语言模型在实际应用中的广泛应用。
当前挑战
DeepSeek-VL2在构建过程中面临多个挑战。首先,处理高分辨率图像和不同长宽比的图像时,传统的固定分辨率编码方法存在局限性,动态平铺策略的引入虽然解决了这一问题,但也增加了计算复杂性。其次,多模态数据的整合和训练数据的多样性要求极高,如何在保持数据质量的同时,确保模型在多种任务中的泛化能力是一个重要挑战。此外,MoE架构的引入虽然提升了模型的效率,但也带来了专家负载均衡和稀疏计算的复杂性。最后,如何在多模态任务中保持模型的语言能力和视觉理解能力的平衡,也是DeepSeek-VL2需要解决的关键问题。
常用场景
经典使用场景
DeepSeek-VL2 数据集的经典使用场景主要集中在视觉-语言多模态任务中,如视觉问答(VQA)、光学字符识别(OCR)、文档/表格/图表理解以及视觉定位等。通过其动态分块视觉编码策略和多专家混合模型架构,DeepSeek-VL2 能够高效处理高分辨率图像,并在这些任务中展现出卓越的性能。
实际应用
DeepSeek-VL2 数据集在实际应用中具有广泛的潜力,特别是在需要多模态理解的领域,如智能文档处理、自动化办公、视觉辅助系统等。例如,在文档处理中,DeepSeek-VL2 可以用于自动识别和理解文档中的表格、图表和文字内容;在视觉辅助系统中,它可以用于帮助视觉障碍者理解周围环境。此外,该数据集还可应用于教育、医疗等领域,提升人机交互的智能化水平。
衍生相关工作
DeepSeek-VL2 数据集的发布催生了一系列相关研究工作,特别是在视觉-语言模型的优化和扩展方面。例如,基于 DeepSeek-VL2 的动态分块策略,研究人员提出了更高效的视觉编码方法;同时,其多专家混合模型架构也为稀疏计算和模型压缩提供了新的思路。此外,DeepSeek-VL2 在视觉定位和多模态对话中的表现,激发了更多关于多模态交互和语义理解的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作