DatBench

github2026-01-30 更新2026-01-07 收录

下载链接：

https://github.com/datologyai/DatBench

下载链接

链接失效反馈

官方服务：

资源简介：

DatBench是一个高保真视觉语言基准测试，提供两种版本：DatologyAI/DatBench（高保真子集，约5K样本/能力，总计约45K）和DatologyAI/DatBench-Full（完整数据集，约205K样本）。包含九种评估能力，涵盖多样化的视觉语言任务，如图表理解、对象计数、文档解析、通用VQA、数学推理等。每个样本包含唯一标识符、图像、问题、答案、评估模式等信息。

DatBench is a high-fidelity visual-language benchmark that provides two versions: DatologyAI/DatBench, the high-fidelity subset with approximately 5K samples per capability and a total of around 45K samples, and DatologyAI/DatBench-Full, the complete dataset with roughly 205K samples. It includes nine evaluation capabilities, covering a diverse set of visual-language tasks such as chart understanding, object counting, document parsing, general-purpose VQA, mathematical reasoning and more. Each sample contains information including a unique identifier, image, question, answer, evaluation protocol and other relevant details.

创建时间：

2026-01-03

原始信息汇总

DatBench数据集概述

数据集基本信息

数据集名称: DatBench
托管地址: https://github.com/datologyai/DatBench
性质: 一个高保真度的视觉-语言基准测试数据集，包含精确的评分实现。

数据集版本与规模

DatologyAI/DatBench: 高保真度子集（每种能力约5K样本，总计约45K样本）。
DatologyAI/DatBench-Full: 完整数据集（总计约205K样本）。

评估能力范围

涵盖九种视觉-语言任务评估能力：

chart: 图表理解、信息图问答。
counting: 物体计数任务。
document: 光学字符识别（OCR）、文档解析、关键信息提取（KIE）。
general: 通用视觉问答（VQA）、推理。
grounding: 指代表达式定位、点定位。
math: 数学推理、几何。
scene: 场景文本识别、多场景OCR。
spatial: 空间推理、现实世界问答。
table: 表格理解、图表问答。

样本数据结构

每个样本包含以下字段：

id: 唯一标识符。
image: 图像（由Hugging Face自动加载为PIL.Image）。
question: 格式化后的提示词，可直接用于推理。
answer: 标准答案。
all_answers: 其他有效答案列表。
eval_mode: 评估模式，值为"direct"或"judge"。
is_circular: 是否为循环评估变体。
metadata: 包含数据集特定元数据的JSON字符串。
source_info: 来源信息字典，包含dataset（源数据集名称）和original_idx（原始样本ID）。

主要评估工具

核心类: DatBenchEvaluator
主要方法:
- __init__(hf_dataset, capability): 使用Hugging Face数据集初始化。
- get_inference_tasks(): 获取InferenceTask对象列表。
- create_judge_tasks(vlm_responses): 创建评判评估任务。
- compute_metrics(vlm_responses, judge_responses=None): 计算分数并生成报告。

数据类定义

InferenceTask: 视觉语言模型的输入任务，包含id、image、question、eval_mode。
VLMResponse: 视觉语言模型的输出，包含id、raw_output、parsed_answer（可选预提取答案）。
DatBenchReport: 最终评估结果，包含summary（总体准确率、数据集指标等字典）、results（每个样本得分的详细列表）和save(path)方法（将报告保存为JSON文件）。

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，DatBench数据集通过精心整合多个权威视觉问答数据集构建而成。其构建过程首先从ChartQA、DocVQA、TextVQA等九个核心能力领域的公开数据集中筛选高质量样本，随后对图像与问题进行了标准化处理，确保格式统一。每个样本均配备了精确的参考答案及备选答案列表，并引入了循环评估变体以增强鲁棒性。数据集最终形成两个版本：一个约含45,000个样本的高保真子集，以及一个包含约205,000个样本的完整集合，全面覆盖了图表理解、文档解析、空间推理等多样化任务。

特点

DatBench数据集以其高保真度与精确的评分实现而著称，涵盖了图表理解、计数、文档分析、通用推理、基础定位、数学推理、场景文本识别、空间推理及表格解析九大核心能力。每个样本不仅包含图像、格式化问题及标准答案，还提供了备选答案列表和丰富的元数据，支持直接评估与裁判评估两种模式。其独特的循环评估设计增强了测试的鲁棒性，而模块化的API接口则允许研究者灵活地进行模型推断与度量计算，为视觉语言模型的综合性能评估提供了可靠且全面的基准。

使用方法

使用DatBench数据集时，研究者可通过Hugging Face的load_dataset函数加载指定能力子集，并利用DatBenchEvaluator类初始化评估器。获取推理任务列表后，用户可自定义视觉语言模型处理图像与问题，生成原始输出并封装为VLMResponse对象。通过调用compute_metrics方法，系统将自动计算整体准确率及各数据集细分指标，并生成详细的评估报告。报告支持保存为JSON格式，便于后续分析与比较，整个流程简洁高效，有力支撑了模型性能的标准化评测。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，视觉-语言模型（VLM）在理解和生成跨模态内容方面展现出巨大潜力。然而，现有基准测试往往在任务多样性、评估保真度及评分一致性上存在局限。DatBench基准由DatologyAI团队构建，旨在提供一个高保真度的视觉-语言评估库，涵盖图表理解、文档解析、数学推理、空间推理等九大核心能力。该数据集通过精确的评分实现和严谨的样本设计，致力于系统性地衡量模型在复杂真实场景下的综合性能，推动视觉-语言智能向更可靠、更通用的方向发展。

当前挑战

DatBench致力于解决视觉-语言模型评估中任务覆盖狭窄、评分标准模糊等核心挑战。其构建过程需整合来自不同领域的异构数据，确保样本在视觉复杂性、语言歧义性和推理深度上的代表性。同时，设计统一且可复现的评分机制，处理诸如答案变体、循环评估变体等细微差别，并在保持高保真度的前提下平衡数据集规模与评估效率，这些均是构建过程中面临的关键技术难题。

常用场景

经典使用场景

在视觉语言模型（VLM）评估领域，DatBench作为高保真度基准，其经典使用场景在于系统性地测评模型在多样化视觉语言任务上的综合能力。研究者通过加载特定能力子集，如数学推理或图表理解，利用标准化评估流程生成模型响应并计算准确率，从而实现对模型性能的精细化横向对比与纵向追踪。

实际应用

在实际应用中，DatBench被广泛用于指导工业级视觉语言系统的开发与优化。企业研发团队可依据其在文档解析、场景文本识别或空间推理等任务上的评估结果，针对性调整模型架构与训练策略，提升产品在智能问答、自动化文档处理及多模态交互等场景中的实用性与鲁棒性。

衍生相关工作

围绕DatBench已衍生出一系列经典研究工作，包括基于其能力划分的模型弱项诊断框架、针对‘直接评估’与‘评判评估’双模式的自动化评测工具链，以及利用其高保真样本进行的多任务联合训练方法探索。这些工作进一步丰富了视觉语言评估的生态体系，促进了评估方法学与模型改进的协同演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集