DCL_10Percent_with_RAG

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/MLLM-CL/DCL_10Percent_with_RAG

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含五个不同领域的视觉问答（VQA）数据配置（AD、Fin、Med、RS、Sci）。每个配置包含带有相关图像的问题-答案对，数据特征包括问题ID、图像列表以及多个领域特定的VQA数据库（AD_vqa_db、Fin_vqa_db、Med_vqa_db、RS_vqa_db、Sci_vqa_db）。每个VQA数据库包含答案字符串、二进制图像数据、空注释和问题字符串。数据集分为测试集和验证集，各配置的样本数量从2284到10000不等。数据总量从12.98GB到23.88GB不等，适用于跨领域视觉问答任务的研究与开发。

创建时间：

2026-03-27

原始信息汇总

数据集概述

基本信息

数据集名称: DCL_10Percent_with_RAG
托管地址: https://huggingface.co/datasets/MLLM-CL/DCL_10Percent_with_RAG
配置数量: 5个独立配置（AD, Fin, Med, RS, Sci）
总体下载大小: 约86.2 GB（各配置下载大小之和）
总体数据集大小: 约86.2 GB（各配置数据集大小之和）

配置详情

配置：AD

数据文件路径:
- 测试集: AD/test-*
- 验证集: AD/val-*
特征:
- question_id (字符串)
- images (图像列表)
- AD_vqa_db (列表，包含answer、images、note、problem字段)
- RS_vqa_db (列表，包含answer、images、note、problem字段)
- Fin_vqa_db (列表，包含answer、images、note、problem字段)
- Med_vqa_db (列表，包含answer、images、note、problem字段)
- Sci_vqa_db (列表，包含answer、images、note、problem字段)
- messages_icl (列表，包含content、role字段)
数据划分:
- 测试集: 10,000个样本，约13.6 GB
- 验证集: 6,000个样本，约8.1 GB
下载大小: 21,736,865,925字节
数据集大小: 21,734,245,700字节

配置：Fin

数据文件路径:
- 测试集: Fin/test-*
- 验证集: Fin/val-*
特征:
- question_id (字符串)
- images (图像列表)
- Med_vqa_db (列表，包含answer、images、note、problem字段)
- Sci_vqa_db (列表，包含answer、images、note、problem字段)
- Fin_vqa_db (列表，包含answer、images、note、problem字段)
- AD_vqa_db (列表，包含answer、images、note、problem字段)
- RS_vqa_db (列表，包含answer、images、note、problem字段)
数据划分:
- 测试集: 10,000个样本，约10.9 GB
- 验证集: 2,927个样本，约3.2 GB
下载大小: 14,036,214,676字节
数据集大小: 14,034,840,956字节

配置：Med

数据文件路径:
- 测试集: Med/test-*
- 验证集: Med/val-*
特征:
- question_id (字符串)
- images (图像列表)
- Fin_vqa_db (列表，包含answer、images、note、problem字段)
- Sci_vqa_db (列表，包含answer、images、note、problem字段)
- AD_vqa_db (列表，包含answer、images、note、problem字段)
- Med_vqa_db (列表，包含answer、images、note、problem字段)
- RS_vqa_db (列表，包含answer、images、note、problem字段)
数据划分:
- 测试集: 9,790个样本，约11.0 GB
- 验证集: 2,284个样本，约2.6 GB
下载大小: 13,576,112,041字节
数据集大小: 13,574,619,787字节

配置：RS

数据文件路径:
- 测试集: RS/test-*
- 验证集: RS/val-*
特征:
- question_id (字符串)
- images (图像列表)
- Sci_vqa_db (列表，包含answer、images、note、problem字段)
- AD_vqa_db (列表，包含answer、images、note、problem字段)
- Med_vqa_db (列表，包含answer、images、note、problem字段)
- Fin_vqa_db (列表，包含answer、images、note、problem字段)
- RS_vqa_db (列表，包含answer、images、note、problem字段)
- messages_icl (列表，包含content、role字段)
数据划分:
- 测试集: 10,000个样本，约15.0 GB
- 验证集: 6,000个样本，约8.9 GB
下载大小: 23,881,787,170字节
数据集大小: 23,879,137,671字节

配置：Sci

数据文件路径:
- 测试集: Sci/test-*
- 验证集: Sci/val-*
特征:
- question_id (字符串)
- images (图像列表)
- RS_vqa_db (列表，包含answer、images、note、problem字段)
- Med_vqa_db (列表，包含answer、images、note、problem字段)
- AD_vqa_db (列表，包含answer、images、note、problem字段)
- Sci_vqa_db (列表，包含answer、images、note、problem字段)
- Fin_vqa_db (列表，包含answer、images、note、problem字段)
- messages_icl (列表，包含content、role字段)
数据划分:
- 测试集: 7,687个样本，约9.3 GB
- 验证集: 3,074个样本，约3.7 GB
下载大小: 12,987,225,555字节
数据集大小: 12,985,550,520字节

数据特征说明

核心字段: 所有配置均包含question_id和images字段。
VQA数据库字段: 各配置包含多个以_vqa_db结尾的字段（如AD_vqa_db、Fin_vqa_db等），每个字段均为列表结构，内含answer（字符串）、images（图像列表）、note（空值）和problem（字符串）子字段。
上下文学习字段: AD、RS、Sci配置额外包含messages_icl字段，为包含content（字符串）和role（字符串）的列表。
数据类型: 包含字符串、图像、二进制数据。
数据划分: 所有配置均提供测试集（test）和验证集（val）划分。

搜集汇总

数据集介绍

构建方式

在跨领域视觉问答研究蓬勃发展的背景下，DCL_10Percent_with_RAG数据集的构建体现了对多模态知识融合的深度探索。该数据集通过精心设计的配置结构，整合了广告、金融、医学、遥感与科学五个核心领域的视觉问答数据。其构建过程涉及从各专业领域筛选高质量的图文对，并为每个问题配备了跨领域的参考数据库，以支持检索增强生成技术的应用。数据被划分为测试集与验证集，确保了模型评估的严谨性与泛化能力，为复杂场景下的视觉推理提供了结构化基础。

特点

该数据集最显著的特征在于其深度融合了多领域知识与检索增强生成机制。每个数据样本不仅包含问题与对应图像，还附带了来自五个不同专业领域的参考数据库，每个数据库内又包含了相关的答案、图像与问题描述。这种设计使得模型能够在一个样本中接触到跨学科的视觉与文本信息，模拟了真实世界中知识交叉应用的复杂场景。数据集规模庞大，涵盖数万样本，且每个配置都针对特定领域进行了优化，形成了既独立又相互关联的多维度知识网络。

使用方法

使用该数据集时，研究者可依据具体的研究目标选择相应的配置，例如专注于医学视觉问答则选用Med配置。数据加载后，每个样本提供了丰富的上下文信息，包括原始问题图像以及多个领域的参考数据库。这允许开发者在训练或评估多模态模型时，灵活利用检索增强生成框架，通过参考数据库中的外部知识来辅助生成更准确的答案。数据集的标准划分便于进行模型性能的基准测试，推动视觉语言模型在专业领域理解与推理能力上的进步。

背景与挑战

背景概述

在视觉问答领域，跨模态理解模型的发展亟需能够处理多领域复杂场景的数据集支撑。DCL_10Percent_with_RAG数据集应运而生，其构建旨在应对多学科视觉问答任务，涵盖广告、金融、医学、遥感与科学等多个专业领域。该数据集通过集成检索增强生成技术，为每个问题提供相关上下文信息，从而推动模型在专业场景下的精准推理能力。其结构设计体现了对领域知识深度融合的追求，为评估模型在真实世界复杂问题中的表现提供了重要基准。

当前挑战

该数据集致力于解决多领域视觉问答任务中的核心挑战，即模型需同时理解图像内容与专业文本，并基于跨模态信息进行准确推理。构建过程中的主要困难在于多源数据的采集与对齐，确保不同领域图像与问题之间的语义一致性。此外，检索增强生成组件的集成要求高质量的相关知识库构建，以及上下文信息与问题的精准匹配，这对数据标注与验证流程提出了极高要求。

常用场景

经典使用场景

在视觉问答领域，DCL_10Percent_with_RAG数据集以其多模态特性，常被用于评估和训练结合检索增强生成技术的模型。该数据集涵盖广告、金融、医学、遥感与科学等多个专业领域，每个样本包含图像、问题及对应的答案，并整合了跨领域的知识库，为模型提供了丰富的上下文信息。研究者利用该数据集探索模型在复杂视觉场景下的推理能力，特别是在需要外部知识辅助的问答任务中，验证模型是否能够准确检索相关信息并生成精确回答。

衍生相关工作

基于该数据集，衍生了一系列经典研究工作，包括针对多领域视觉问答的检索增强生成模型优化、跨模态知识融合方法的创新，以及评估基准的扩展。这些工作不仅提升了模型在特定领域如医学影像分析或金融图表理解中的性能，还推动了通用视觉语言模型在专业化任务中的适应性研究，为后续更精细的多模态人工智能应用奠定了理论基础。

数据集最近研究