DatologyAI/DatBench-Full
收藏Hugging Face2026-05-04 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/DatologyAI/DatBench-Full
下载链接
链接失效反馈官方服务:
资源简介:
DatBench是一个专为视觉-语言模型(VLMs)设计的评估套件,旨在提供高效、高信号的评估集合。它通过四个阶段的筛选流程构建,包括多选题到生成式问题的转换、盲解过滤、使用VLM作为裁判的质量过滤和区分性子集选择。数据集包含9个核心能力,如OCR、grounding、charts、math、spatial reasoning等,并提供了高效子集和完整套件两个变体,适用于训练循环、消融实验、快速迭代和模型比较等场景。
DatBench is a curated evaluation suite for vision–language models (VLMs) designed to be faithful, discriminative, and efficient. It is constructed via a four-stage curation pipeline applied to 33 widely used VLM benchmarks spanning 9 core capabilities (e.g., OCR, grounding, charts, math, spatial reasoning). The dataset is released in two complementary variants: a high-efficiency, high-signal evaluation set (DatBench) and a cleaned full suite (DatBench-Full), suitable for training loops, ablations, rapid iteration, and model comparison.
提供机构:
DatologyAI
搜集汇总
数据集介绍

构建方式
DatBench-Full数据集源自一项严谨的四阶段数据策展流程,旨在克服传统视觉语言模型评测中存在的多项缺陷。该流程首先将33个广泛使用的基准测试中的多项选择题转化为生成式问答形式,以消除随机猜测与选项偏差;随后通过“盲解性过滤”剔除那些无需图像即可回答的问题,切断语言先验的信息泄露;接着采用“VLM-as-Judge”机制进行质量筛选,丢弃错误、模糊或低分辨率的样本;最后保留经前三阶段处理后的全部高质量样本,构建出一个清洁且完整的评测套件。
特点
DatBench-Full的核心特点在于其基于9大核心能力(如图表理解、数学推理、空间关系辨识等)组织的多维度结构,涵盖了图表、计数、文档、通用视觉、接地、数学、场景、空间与表格等九个配置项。每个样本均包含图像、问题、标准答案及用于评估的提示格式与评判提示,并附有可量化的判别力指标和前沿性标签。该数据集作为一个更大且更详尽的集合,旨在服务于最终的性能报告、深度错误分析及全面的模型能力评估,尤其注重评测的忠诚度与区分度。
使用方法
使用时,研究人员可通过DatBench官方提供的评测框架,针对九个独立子集分别加载测试分割数据。每个子集的样本均以标准化的图像-问答格式呈现,用户只需将模型输出与字段中的答案进行比对,并根据预设的评估模式与评判提示进行打分。该数据集特别适合用于模型的深度评测与细粒度能力剖析,其规模虽大但经过严格清洗,为复现实验与类比分析提供了可靠的基础,是进行权威性模型比较的首选基准之一。
背景与挑战
背景概述
DatBench-Full是2026年由DatologyAI研究团队(包括Siddharth Joshi、Haoli Yin等众多研究人员)构建的大规模视觉语言模型(VLM)评估数据集。随着多模态大模型的迅猛发展,现有基准测试普遍面临多项选择题评分膨胀、语言先验泄露、标注噪声以及冗余低信息样本等严峻问题,导致模型能力被严重高估。DatBench旨在将评估重新定义为数据筛选问题,通过四阶段处理流程——多选题生成式转换、盲可解性过滤、VLM作为裁判的质量过滤以及鉴别性子集选取——系统性地清洗并转化了横跨9项核心能力(如OCR、图表理解、空间推理等)的33个广泛使用基准,最终生成高保真、强判别力且高效的数据集。其全量版本DatBench-Full保留了经过前三个阶段筛选的所有高质量样本,为最终报告和深度误差分析提供了更为全面的评估基础。
当前挑战
DatBench-Full所应对的核心挑战在于纠正当前VLM评估中普遍存在的多重弊端:首先,传统多项选择格式允许模型通过排除法或语言偏好获取正确答案,掩盖了真实的视觉-语言推理能力,因此需要转换为生成式评估以暴露隐藏的能力缺陷。其次,大量样本严重依赖语言先验或记忆的外部元数据(如OCR-VQA中依赖亚马逊图书类别),而并非真实图像信息,这些非忠实性问题必须经由盲可解性过滤和质量评估予以剔除。在构建过程中,团队面临艰巨的挑战:如何对来源各异的33个基准进行标准化清洗,在保持评估全面性的同时提升每单位计算量所获取的信号强度。此外,设计具有高鉴别力的子集选择算法以最大化信号密度,并确保经过质量过滤后剩余的跨域难题仍能全面反映模型的实际能力边界,亦是工程与统计层面的核心难题。
常用场景
经典使用场景
在视觉语言模型(VLM)蓬勃发展的时代,模型的评估体系却长期受困于多项选择膨胀、语言捷径泄漏与标注噪声等顽疾。DatBench-Full作为一套经过严谨清洗与转换的全量评估套件,其经典使用场景聚焦于对VLM进行深度且全面的能力解剖。覆盖图表理解、文档OCR、空间推理、数学计算等九大核心能力的海量测试样本,使得研究者能够系统性地探查模型在各类多模态任务上的真实表现。尤其适用于终极性能报告与榜单提交,它提供了一个去除冗余信号后的纯净评测基底,让不同架构间的能力差距得以清晰展现。
衍生相关工作
基于DatBench-Full严苛的筛选与转换体系,学术界已衍生出多条引人瞩目的研究脉络。其四阶段数据治理流程直接启发了后续关于高效评估子集构造的研究,比如利用其发布的高判别性样本子集作为种子,研发更轻量级的模型能力快速诊断工具。此外,数据集中关于多项选择转生成式评测的设计范式,催生了新的VLM评估协议研究,推动了学术界对标准化生成式评分机制的探索,并成为分析模型在零样本与少样本设定下泛化能力的重要对比参照。
数据集最近研究
最新研究方向
DatBench-Full数据集代表了视觉-语言模型评估领域的前沿转向——从传统多选评测的粗放范式迈向兼具判别力、忠实度与效率的精细化数据策展方向。其四阶段清洗流水线直击当前基准测试中普遍存在的选择题膨胀、语言捷径泄露与标注噪声顽疾,通过生成式转换、不可盲解过滤及高判别性子集筛选,精准暴露了模型在图表推理、数学求解、空间感知等九大核心能力上的真实鸿沟。该数据集与高效子集DatBench的协同设计,不仅为模型迭代提供了约13倍加速的轻量验证渠道,更在最终能力定论时保留了全面详尽的测试语料,其影响已辐射至多模态大模型的训练循环优化与标准化评估范式重构,成为衡量前沿VLM鲁棒性与泛化边际的关键标尺。
以上内容由遇见数据集搜集并总结生成



