MD-C2C-ScienceQA-KV

Hugging Face2026-04-06 更新2026-04-07 收录

下载链接：

https://huggingface.co/datasets/sungkwang2/MD-C2C-ScienceQA-KV

下载链接

链接失效反馈

官方服务：

资源简介：

MD-C2C ScienceQA KV Cache 数据集是为多模态直接缓存到缓存（MD-C2C）研究设计的键值（KV）缓存数据集。数据集包含两个子集：Z_full 和 Z_blk。Z_full 是从 ScienceQA 中提取的真实图像视觉语言模型（VLM，Qwen3-VL-2B-Thinking）KV 缓存，包含训练集（45 个分片，共 2,221 个样本）和测试集（16 个分片，共 770 个样本）。每个样本的形状为 `think_kv` = `(28, 2, 8, N, 128)`（bfloat16 格式），并包含多个键如 `think_kv`、`think_len`、`prefill_len`、`vlm_text` 等。Z_blk 是使用黑色（空白）图像提取的反事实基线 KV 缓存，其结构与 Z_full 对齐，包含相同的键但增加了 `is_counterfactual` 标识。该数据集的主要用途是通过比较 Z_full 和 Z_blk 来隔离 KV 缓存中的视觉信息，从而分析哪些层携带视觉或文本信息。数据集适用于视觉问答（VQA）和多模态研究任务。

创建时间：

2026-03-31

原始信息汇总

MD-C2C ScienceQA KV Cache Dataset 概述

数据集基本信息

许可证: Apache 2.0
任务类别: 视觉问答
标签: kv-cache, cache-to-cache, multimodal, scienceqa
数据规模: 1K<n<10K

数据集内容与结构

本数据集为多模态直接缓存到缓存研究提供KV缓存数据。

Z_full (`z_full/`)

包含使用ScienceQA中真实图像从VLM模型提取的KV缓存。

训练集: 45个分片 × 50个样本 = 2,221个样本
测试集: 16个分片 × 50个样本 = 770个样本
每个样本形状: think_kv = (28, 2, 8, N, 128)，数据类型为bfloat16
包含键: think_kv, think_len, prefill_len, vlm_text, vlm_answer_idx, question, hint, choices, answer_idx, sample_idx

Z_blk (`z_blk/`)

包含使用黑色（空白）图像从VLM模型提取的KV缓存，作为反事实基线。

训练集: 45个分片，测试集: 16个分片（通过sample_idx与Z_full完全对齐）
包含键: think_kv, think_len, prefill_len, is_counterfactual, sample_idx

使用目的

通过计算Z_full与Z_blk之间的差异，可以隔离KV缓存中的视觉信息，从而支持对哪些层携带视觉信息与文本信息进行反事实分析。

相关模型

模型	角色
Qwen3-VL-2B-Thinking	VLM源（KV提取）
Qwen3-0.6B	LLM接收器（KV注入目标）

搜集汇总

数据集介绍

构建方式

在视觉语言模型研究领域，MD-C2C-ScienceQA-KV数据集通过系统化的多模态知识提取流程构建而成。该数据集以ScienceQA基准为基础，利用Qwen3-VL-2B-Thinking模型对真实图像进行推理，完整提取了模型前向传播过程中产生的键值缓存序列。同时构建了反事实对照版本，将原始图像替换为纯黑图像后重新运行相同推理文本，生成完全对齐的键值缓存数据。这种双轨制构建策略确保了每个样本在文本序列保持一致的条件下，仅视觉输入存在差异，为后续的对比分析奠定了坚实基础。

特点

该数据集的核心特征体现在其精心设计的对比架构与高维度数据结构上。数据集包含Z_full与Z_blk两个完全对齐的子集，分别对应真实图像与空白图像的键值缓存，这种配对设计使得研究者能够通过差分计算精确分离视觉与文本信息在模型内部的表征。每个样本的键值缓存采用五维张量结构存储，完整保留了模型28个注意力层、2个注意力头方向、8个注意力头、可变序列长度与128维特征空间的全部信息。数据集还额外标注了推理长度、预填充长度、问题文本、选项索引等元数据，为多模态表示分析提供了丰富的上下文信息。

使用方法

研究者在运用该数据集时，可通过标准化的数据加载流程获取结构化键值缓存。使用PyTorch框架直接加载分片文件后，即可访问每个样本完整的键值缓存张量及关联元数据。典型分析流程包括计算Z_full与Z_blk对应样本的键值缓存差异，通过对比分析揭示视觉信息在模型各注意力层的分布规律。该数据集特别适用于研究键值缓存在多模态模型中的传播机制，支持视觉语言模型的表示解耦、知识蒸馏等前沿研究方向，为理解模型内部工作机制提供了重要的实验数据支撑。

背景与挑战

背景概述

随着多模态大语言模型在视觉问答任务中的广泛应用，研究者们开始深入探索模型内部表示机制，特别是注意力机制中的键值缓存。MD-C2C-ScienceQA-KV数据集应运而生，旨在为多模态直接缓存到缓存技术的研究提供关键支持。该数据集由研究团队基于ScienceQA基准构建，通过提取Qwen3-VL-2B-Thinking模型在处理真实图像与空白图像时的键值缓存，为分析视觉与文本信息在模型各层的分离与交互提供了实证基础。其核心研究问题聚焦于视觉信息在键值缓存中的编码方式，以及如何通过反事实分析揭示多模态表示的本质，对推动可解释人工智能与高效模型压缩具有重要意义。

当前挑战

该数据集致力于解决视觉问答领域中模型内部表示的可解释性挑战，特别是如何从复杂的多模态注意力机制中分离出纯粹的视觉贡献。构建过程中面临的主要挑战包括：确保键值缓存提取的精确性与一致性，需在相同文本输入下对比真实图像与空白图像的缓存差异；处理大规模高维张量数据带来的存储与计算负担，每个样本的键值缓存形状为(28, 2, 8, N, 128)，对数据管理与高效访问提出了较高要求；同时，保持Z_full与Z_blk样本间的严格对齐，以支持可靠的反事实分析，这需要精细的实验设计与数据处理流程。

常用场景

经典使用场景

在多模态视觉语言模型的研究领域，MD-C2C-ScienceQA-KV数据集为探索KV缓存机制提供了关键实验平台。其经典使用场景在于通过对比真实图像与空白图像生成的KV缓存差异，研究者能够精确分离视觉与文本信息在模型内部表征中的贡献。这一过程通常涉及加载数据分片，提取并分析think_kv张量的结构，进而量化不同层在信息处理中的角色，为理解多模态融合机制奠定了实证基础。

解决学术问题

该数据集主要解决了多模态模型中视觉与语言信息交互机理的解析难题。通过构建反事实基线，它使研究者能够隔离KV缓存中的视觉成分，从而识别哪些网络层承载了关键的视觉语义。这不仅深化了对视觉语言模型内部工作机理的理论认识，还为优化模型架构、减少冗余计算提供了直接依据，推动了高效多模态推理方法的发展。

衍生相关工作

围绕该数据集，已衍生出一系列聚焦于KV缓存分析与优化的经典研究。这些工作包括探索跨模型缓存迁移的有效性、设计层间信息蒸馏方法以提升小型接收模型的性能，以及开发基于反事实分析的视觉注意力解释技术。这些研究不仅丰富了多模态学习理论，也为构建轻量级、可解释的视觉语言系统提供了切实可行的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集