VTCBench

Hugging Face2025-12-06 更新2025-12-07 收录

下载链接：

https://huggingface.co/datasets/MLLM-CL/VTCBench

下载链接

链接失效反馈

官方服务：

资源简介：

VTCBench是一个视觉文本压缩基准测试数据集，旨在从视觉语言模型（VLM）的角度重新审视“大海捞针”（NIAH）问题，通过将长文本转换为渲染图像来测试VLM在OCR、检索、聚合、推理和记忆长文本作为图像的能力。具体包括三个任务：检索（Vision-NIAH VQA任务用于信息检索和聚合）、推理（Vision-NIAH VQA任务用于与一般知识的关联推理）和记忆（VQA任务用于记忆和理解长对话）。数据集包含多样化的图像准备静态VLM基准测试，具有多种字体、字体大小和行间距，可以直接评估而无需任何数据集生成。

创建时间：

2025-11-28

原始信息汇总

VTCBench 数据集概述

数据集基本信息

数据集名称：VTCBench (Vision-Text Compression Benchmark)
许可证：Apache-2.0
主要语言：英语 (en)
任务类别：视觉问答 (visual-question-answering)
数据规模：1K < n < 10K

数据集描述

VTCBench 从视觉语言模型 (VLM) 的视角重新审视了“大海捞针” (Needle-In-A-Haystack, NIAH) 任务，通过将长文本上下文渲染成图像来构建。该基准测试旨在评估 VLM 对图像形式的长上下文进行 OCR、检索、聚合、推理和记忆的能力。具体包含三个任务：

检索任务：用于信息检索和聚合的视觉 NIAH 视觉问答任务。
推理任务：结合常识进行关联推理的视觉 NIAH 视觉问答任务。
记忆任务：用于记忆和理解长连贯对话的视觉问答任务。

此仓库包含 VTCBench 的 Wild 版本，这是一个多样化、可直接用于评估的静态 VLM 基准测试，具有多种字体、字体大小和行间距，无需进行数据集生成。

数据集内容与结构

数据字段

problem：问题文本。
answers：答案列表。
images：图像列表，每个图像以字典形式存储，包含 "bytes" 键。
_context：images 列对应的文本等价物，即渲染成图像前的原始上下文（可能包含 HTML）。
_render_args：控制渲染操作的参数字典，例如 pagesize 字段调整图像尺寸，css 字段调整字体大小和间距。
_source：行级元数据，包含诸如针 (needle) 和干草堆 (haystack) 等信息。

数据规模

检索任务：800 个样本。
推理任务：800 个样本。
记忆任务：600 个样本。

数据来源与构建

源数据集

VTCBench 基于经典的 NIAH 数据集或长期记忆数据集生成。

VTCBench 子集	源数据集	评估指标	针 (Needle) 类型	干草堆 (Haystack) 类型	评估方式	许可证
VTC-Retrieval	RULER	`contains`	单词/UUID/数字	文章	补全/问答	Apache-2.0
VTC-Reasoning	NoLiMa	`containsAll`	角色/事件	书籍	问答	Adobe Research
VTC-Memory	LoCoMo	`ROUGE-L`	不适用	对话	问答	CC BY-NC 4.0

构建流程

数据生成流程包含两个阶段转换：

阶段1到阶段2：随机选择针和干草堆并进行占位符填充。
阶段2到阶段3：文本到图像的渲染。

为了控制随机性，构建者预先确定了 RULER 的文本版本，并统一对操作参数（针、干草堆、字体、字体大小、行间距）的排列组合进行了采样，从而得到最终的静态基准测试集。

使用方式

直接使用

用于直接评估视觉语言模型。加载数据集后，模型生成预测，并使用基于“应包含所有真实答案”的指标进行评估。

评估指标示例

python def contains_all(pred: str, gts: list[str]) -> float: hits = sum(each_gt in pred for each_gt in gts) total = len(gts) return hits/total

超出范围的使用

不建议用于重新生成数据。如需重新生成图像或图像-问题-答案三元组，可参考元数据列 (_context, _render_args, _source) 及项目代码库。

局限性与注意事项

problem 字段不包含任何指令提示。用户需参考原始 NIAH 实现或本项目的评估框架。
VTCBench-Wild 仅是所有可能渲染格式的一个子集。它从 字体、字体大小、行间距 三个维度的有限排列中采样了约 5k 个样本，未能覆盖现实中的所有排列组合，这是在成本效益权衡下接受的局限性。

相关资源

完整项目与代码库：https://github.com/moenupa/VTCBench
RULER 文本格式数据集：https://huggingface.co/datasets/MLLM-CL/RULER
NoLiMa 数据集：https://huggingface.co/datasets/amodaresi/NoLiMa

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，VTCBench的构建旨在通过将长文本上下文转换为渲染图像，系统性地测试模型在光学字符识别、信息检索、聚合、推理及长时记忆等方面的能力。该数据集从经典的针在干草堆式基准（如RULER、NoLiMa）及长时对话记忆数据集（如LoCoMo）中提取源数据，通过一个分阶段的生成流程实现：首先确定随机针与干草堆的组合以生成文本上下文与问题，随后应用文本到图像的渲染操作，其中渲染参数如字体、字号和行间距均经过精心控制。为确保数据集的代表性与可复现性，研究团队对操作参数进行了均匀采样，最终构建了一个包含检索、推理与记忆三大任务、总计约2200个样本的静态基准集合。

使用方法

使用VTCBench进行直接评估时，研究人员可通过Hugging Face的datasets库加载数据集，获取包含问题、答案列表及图像字节流的关键列。评估过程要求模型根据提供的图像生成文本回答，随后以答案完全包含准则计算性能指标，即检查模型输出是否涵盖所有预设的真实答案片段。对于希望进一步探索的研究者，数据集提供了丰富的元数据列，如原始文本上下文、渲染参数及源数据信息，支持用户根据需要重新生成图像或调整渲染设置。此外，数据集鼓励用户参考其GitHub仓库中的完整生成与评估流程，以实现更灵活的基准定制与扩展。

背景与挑战

背景概述

视觉语言模型（VLM）的快速发展催生了对其长上下文处理能力的深入评估需求，VTCBench（Vision-Text Compression Benchmark）应运而生。该数据集由Moenupa团队于近期构建，旨在从视觉角度重新审视“大海捞针”（Needle-In-A-Haystack, NIAH）范式，通过将长文本渲染为图像，系统性地测试VLM在光学字符识别、信息检索、聚合、推理及长时记忆等方面的综合性能。其核心研究问题聚焦于评估模型在视觉化长上下文中的理解与推理能力，为多模态人工智能领域提供了关键的基准测试工具，推动了视觉问答任务向更复杂、更贴近实际应用场景的方向演进。

当前挑战

VTCBench致力于解决视觉语言模型在长上下文图像理解中的核心挑战，包括模型对渲染文本的精确OCR识别、从密集视觉信息中检索关键细节、以及进行多步关联推理的能力。这些挑战直接对应其设计的三大任务：检索、推理与记忆，要求模型超越简单的模式匹配，实现深层次的语义解析。在构建过程中，团队面临的主要挑战在于平衡数据集的多样性与可复现性——原始NIAH方法因随机生成文本与渲染参数而引入过多变异性，不利于稳定评估。为此，VTCBench通过精心设计采样策略，从海量的字体、字号、行距等渲染参数组合中均匀抽取静态子集，在控制成本的同时，力求最大限度地代表整体数据分布，从而为社区提供一个标准化、可复现的评估基准。

常用场景

经典使用场景

在视觉语言模型（VLM）的评估领域，VTCBench作为一个标准化的静态视觉问答基准，其经典使用场景聚焦于测试模型在长文本图像化处理中的综合能力。该数据集通过将文本上下文渲染为图像，模拟了现实世界中信息以视觉形式呈现的复杂情境，涵盖了检索、推理和记忆三大任务。研究者利用VTCBench直接评估模型在光学字符识别、信息聚合、关联推理以及长对话理解等方面的性能，无需额外的数据生成步骤，为模型比较提供了统一且可复现的基准环境。

解决学术问题

VTCBench旨在解决视觉语言模型评估中因随机性导致的基准不一致和可复现性难题。传统“大海捞针”类数据集在文本选择与渲染参数上引入的随机性，使得模型性能评估缺乏稳定参照。该数据集通过精心策划的小规模静态样本，均匀采样自多种字体、字号和行间距的排列组合，有效代表了更广泛的视觉文本压缩场景。这为学术界提供了可靠的评估工具，促进了模型在长上下文处理、跨模态理解等核心研究问题上的进展，提升了评估结果的科学性与可比性。

实际应用

在实际应用层面，VTCBench为开发能够处理文档图像、屏幕截图或混合媒体内容的智能系统提供了关键测试平台。例如，在自动化文档分析、教育辅助工具或客户服务聊天机器人中，模型需要从视觉化文本中准确提取并理解信息。该数据集的检索任务可检验信息定位能力，推理任务评估常识关联，记忆任务则针对长对话连贯性理解。这些能力直接关系到智能助手、内容审核系统及无障碍技术等现实应用的效能与用户体验。

数据集最近研究