VisionQ-1k

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/visionq-anon-2026/VisionQ-1k

下载链接

链接失效反馈

官方服务：

资源简介：

VisionQ-1k v4.4 是一个经过人工验证的基准数据集，旨在训练和评估视觉语言模型（VLMs）在学术图表中对每个区域的视觉质量判断能力。数据集涵盖了来自 CVPR / ICCV / ECCV / NeurIPS / SIGGRAPH 2023–2024 的 1,399 篇源论文，包含 3,354 张定性候选图和 48,167 个 Schema v2 边界框标注。其中 908 篇论文通过审核，包含 4,365 个组级定性声明记录和 857 种不同的方法。每个边界框标注包含 10 个字段的 Schema v2 记录，涵盖几何、方法身份、场景/行位置和语义角色。数据集适用于视觉问答、图像文本生成、目标检测等任务，特别适用于多方法比较网格中的细粒度质量差异评估。数据集采用分许可协议，标注元数据为 CC BY 4.0，图像作物仅限研究使用。

创建时间：

2026-05-07

原始信息汇总

VisionQ-1k 数据集概述

基本信息

数据集名称: VisionQ-1k v4.4
许可证: 分裂许可证（CC BY 4.0 用于元数据/代码；图像裁剪仅限研究用途）
语言: 英语
任务类型: 图像-文本到文本、视觉问答、目标检测
数据集规模: 10K-100K 样本

核心统计

统计指标	v4.4版本数据
源论文数量	1,399篇
定性比较图像	3,354张
Schema v2边界框标注	48,167个
人工审核图像	2,771张（82.6%）
— 已批准	1,492张
— 已拒绝	1,279张
— 待处理	583张
已批准论文	908篇
组级别定性声明记录	4,365条
含胜出方法记录	4,160条
不同提出方法	857种

数据集构成

边界框类型分布

类型	占比
主体（main）	83.1%
放大（zoom）	15.3%
辅助（auxiliary）	1.2%
插图（inset）	0.4%

可视化类型分布

模态	占比
RGB	67.5%
网格（mesh）	11.8%
激光雷达（lidar）	5.7%
深度（depth）	4.5%
分割（segmentation）	4.1%
法线（normal）	2.7%
热力图（heatmap）	2.7%
误差图（error_map）	1.0%

高频方法（按组声明频率排名前5）

SNB（29次）
RichDreamer（25次）
PaletteNeRF（22次）
SINE（22次）
ViVid-1-to-3（20次）

Schema v2标注结构

每个边界框包含10个字段，分为四类：

关注方面	字段
几何信息	bbox（xyxy像素坐标）、bbox_id（图像内索引）
方法身份	method（标准化）、method_raw（图中原文）
场景/行身份	row（标准化）、row_raw、col_idx（列位置）
语义角色	bbox_type、viz_type、parent_bbox_id（放大/插图链接）

数据来源

论文来源: CVPR/ICCV/ECCV/NeurIPS/SIGGRAPH 2023-2024
领域偏向: 3D视觉任务（NeRF、3DGS、生成式3D、新视角合成、分割）
来源PDF不重新分发，仅发布提取的图像裁剪和派生元数据

文件结构

vqc14-release/ ├── paper_NNNN/ # 1,399个论文目录 │ ├── labels.json # 论文级元数据+方法标签 │ ├── paper_text.json # 摘要、正文摘录、标题文本 │ └── figures/ │ └── <fig_id>/ │ ├── figure.png # 高分辨率图像裁剪 │ └── annotations.json # Schema v2边界框记录 ├── master_index.csv # 平坦索引（每张图像一行） ├── data_points.csv # 平坦索引（每个边界框一行） ├── data_points.jsonl # 同上，JSON格式 ├── figures.jsonl # 图像级记录+文本信号 ├── group_qualitative_claims.json # 已验证的组级声明记录 ├── mcq_validations.json # MCQ格式人工验证记录 ├── paper_sources.csv # 论文来源信息 ├── csv_export/ # 扁平CSV导出 ├── eda/ # 描述性图表+EDA报告 ├── docs/ # 模式文档 ├── eval/ # 评估文件（332个测试问题、1,960个DPO对） ├── code/ # 流水线源代码 ├── gallery/ # 示例浏览器 ├── LICENSE └── README.md

评估资源

文件	记录数	用途
eval/test_questions.jsonl	332	保留评估集（四选一问题）
eval/dpo_pairs.jsonl	1,960	DPO偏好记录（训练+评估）
code/train_dpo_example.py	—	DPO训练参考脚本

已知限制

领域偏差: 偏向3D视觉任务（NeRF/3DGS等占约27%）
14.9%通用标签: 方法名称提取失败时使用method_N占位符
583张图像待审核: 截至v4.4版本
仅英语: 未收集多语言论文
无定量-定性配对: 未链接定性图像与定量结果表
定性分类器脆弱: 基于9关键词的正则表达式过滤
无固定训练/验证/测试划分: 计划中但尚未锁定
标注者间一致性未计算: 计划进行100张图像重叠审核

搜集汇总

数据集介绍

构建方式

VisionQ-1k的构建历经精密的多阶段流水线。首先，从CVPR、ICCV、ECCV、NeurIPS及SIGGRAPH 2023–2024会议中筛选出1,399篇论文，通过高分辨率PDF渲染与PP-DocLayout-L布局检测器提取3,354幅定性比较图。随后，采用Gemini 3.1 Flash Lite模型对每幅图进行边界框自动标注，生成48,167个遵循Schema v2规范的十字段记录，涵盖几何坐标、方法身份、场景位置及语义角色。最后，通过四名标注员的人工审核对2,771幅图进行批准或拒绝，并利用Claude Haiku 4.5提取论文级方法名称，补全组级定性声明中的空白条目。

特点

该数据集的核心特色在于其精细的逐区域视觉质量标注，而非传统的整体图像评分。每个边界框均包含方法名称、可视化类型（如RGB、网格、深度图）及空间角色（主图、缩放图、辅助图），使评估能够精确到对比网格中的单个单元格。数据集覆盖857种不同的提出方法，并蕴含4,365个经人工验证的组级定性声明，为训练VLM作为裁判提供了丰富的监督信号。此外，其明确的领域偏向（以三维视觉任务为主）既构成了应用范围的局限，也赋予了对该领域模型进行深度评测的独特价值。

使用方法

研究者可通过加载master_index.csv索引文件快速定位特定论文与图，继而读取对应目录下的figure.png图像及annotations.json中的Schema v2注释。数据点的扁平化版本存于data_points.csv或data_points.jsonl，便于批量处理。为简化评估，数据集还提供eval/文件夹，内含332个BLINK风格的四选一测试问题与1,960个DPO偏好对，可直接用于训练与评测。参考训练脚本code/train_dpo_example.py展示了如何结合trl库的DPOTrainer加载数据，而所有图像路径均相对于仓库根目录，引入后即可直接解析使用。

背景与挑战

背景概述

VisionQ-1k 数据集由研究团队于 2024 年构建，旨在弥补现有视觉质量基准在细粒度区域级评估上的不足。现有评估方法多基于图像级或任务级评分，难以精准衡量计算机视觉论文中常见的多方法比较网格图中各单元（如不同方法在相同输入上的输出）的细微质量差异。该数据集从 CVPR、ICCV、ECCV、NeurIPS 和 SIGGRAPH 2023–2024 的 1,399 篇论文中提取了 3,354 张定性比较图，并由人工标注了 48,167 个区域级边界框，每个边界框携带 10 字段的 Schema v2 记录，涵盖几何、方法身份、场景位置和语义角色。数据集还提供了 4,365 条经人工验证的组级定性声明，直接支持视觉语言模型（VLM）作为裁判的监督与评估。VisionQ-1k 的出现为视觉质量判断领域提供了首个区域级基准，推动了 VLM 在学术图表理解中的细粒度评估能力。

当前挑战

该数据集面临多重挑战。首先，在领域问题层面，现有视觉质量基准（如图像级评分或任务级问答）无法处理计算机视觉论文中常见的多方法比较网格图，其中每个单元格代表不同方法在相同输入上的输出，且质量差异细微（如边界锐利度、表面噪声、重建保真度）。其次，在构建过程中，自动标注流程存在关键瓶颈：用于筛选定性比较图的 9 关键词正则表达式过于脆弱，导致约 41% 的拒绝案例为误判；方法名称提取器在 14.9% 的边界框中退化为位置占位符；数据集存在显著的领域偏差，偏向 3D 视觉任务（如 NeRF 和生成式 3D），限制了其泛化性。此外，583 张图仍待人工审核，且未冻结训练/验证/测试划分，跨标注者一致性评估尚在规划中。这些挑战共同影响了数据集的完整性和可靠性。

常用场景

经典使用场景

VisionQ-1k数据集最经典的使用场景在于评估和训练视觉语言模型（VLM）对学术图表中局部区域视觉质量的判别能力。该数据集聚焦于计算机视觉论文中常见的多方法对比网格图，其中每个单元格展示了不同方法在同一输入上的输出结果，质量差异细微如边界清晰度、表面噪声或重建保真度。通过提供每区域级别的细粒度标注——涵盖几何信息、方法身份、场景行位置和语义角色——VisionQ-1k使研究者能够构建要求VLM识别特定单元格优劣的基准测试，而非仅对整张图片进行评分。这一设计填补了现有视觉质量基准在区域级粒度上的空白，为评估VLM作为评判者的能力提供了标准化平台。

解决学术问题

该数据集有效解决了学术研究中缺乏细粒度视觉质量基准的痛点。传统评估方法仅在图像级别或任务级别打分，无法捕捉多方法对比图中各区域间的微妙质量差异。VisionQ-1k通过提供48,167个人工验证的边界框标注和4,365个组级定性主张记录，使研究者能系统性地探究VLM在识别特定方法输出优劣上的表现。其意义在于推动VLM从全局理解向局部精细判别演进，为对比分析图像生成、三维重建、渲染等多种技术路线提供了可靠的数据基础，显著提升了学术比较的客观性与可复现性。这一基准也促进了VLM作为自动评审工具在论文审阅流程中的潜在应用。

衍生相关工作

VisionQ-1k的发布已催生了一系列经典相关工作。基于其区域级标注体系，研究者开发了VLM-as-Judge基准测试，专门评估模型在对比网格图中识别更优方法的准确性。数据集还衍生出偏好优化（DPO）训练方法，通过其提供的1,960对偏好记录训练VLM进行更符合人类判断的质量排序。此外，Schema v2标注格式被多个后续数据集采纳为标准模板，用于规范化学术图表中的方法比较结构。这些衍生工作共同推动了视觉语言模型在细粒度质量评估、自动化论文分析以及研究结果比较等方向的发展，形成了系统的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集