five

VisionQ-1k

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/visionq-anon-2026/VisionQ-1k
下载链接
链接失效反馈
官方服务:
资源简介:
VisionQ-1k v4.4 是一个经过人工验证的基准数据集,旨在训练和评估视觉语言模型(VLMs)在学术图表中对每个区域的视觉质量判断能力。数据集涵盖了来自 CVPR / ICCV / ECCV / NeurIPS / SIGGRAPH 2023–2024 的 1,399 篇源论文,包含 3,354 张定性候选图和 48,167 个 Schema v2 边界框标注。其中 908 篇论文通过审核,包含 4,365 个组级定性声明记录和 857 种不同的方法。每个边界框标注包含 10 个字段的 Schema v2 记录,涵盖几何、方法身份、场景/行位置和语义角色。数据集适用于视觉问答、图像文本生成、目标检测等任务,特别适用于多方法比较网格中的细粒度质量差异评估。数据集采用分许可协议,标注元数据为 CC BY 4.0,图像作物仅限研究使用。
创建时间:
2026-05-07
原始信息汇总

VisionQ-1k 数据集概述

基本信息

  • 数据集名称: VisionQ-1k v4.4
  • 许可证: 分裂许可证(CC BY 4.0 用于元数据/代码;图像裁剪仅限研究用途)
  • 语言: 英语
  • 任务类型: 图像-文本到文本、视觉问答、目标检测
  • 数据集规模: 10K-100K 样本

核心统计

统计指标 v4.4版本数据
源论文数量 1,399
定性比较图像 3,354
Schema v2边界框标注 48,167
人工审核图像 2,771张(82.6%)
— 已批准 1,492张
— 已拒绝 1,279张
— 待处理 583张
已批准论文 908
组级别定性声明记录 4,365
含胜出方法记录 4,160条
不同提出方法 857

数据集构成

边界框类型分布

类型 占比
主体(main) 83.1%
放大(zoom) 15.3%
辅助(auxiliary) 1.2%
插图(inset) 0.4%

可视化类型分布

模态 占比
RGB 67.5%
网格(mesh) 11.8%
激光雷达(lidar) 5.7%
深度(depth) 4.5%
分割(segmentation) 4.1%
法线(normal) 2.7%
热力图(heatmap) 2.7%
误差图(error_map) 1.0%

高频方法(按组声明频率排名前5)

  • SNB(29次)
  • RichDreamer(25次)
  • PaletteNeRF(22次)
  • SINE(22次)
  • ViVid-1-to-3(20次)

Schema v2标注结构

每个边界框包含10个字段,分为四类:

关注方面 字段
几何信息 bbox(xyxy像素坐标)、bbox_id(图像内索引)
方法身份 method(标准化)、method_raw(图中原文)
场景/行身份 row(标准化)、row_raw、col_idx(列位置)
语义角色 bbox_type、viz_type、parent_bbox_id(放大/插图链接)

数据来源

  • 论文来源: CVPR/ICCV/ECCV/NeurIPS/SIGGRAPH 2023-2024
  • 领域偏向: 3D视觉任务(NeRF、3DGS、生成式3D、新视角合成、分割)
  • 来源PDF不重新分发,仅发布提取的图像裁剪和派生元数据

文件结构

vqc14-release/ ├── paper_NNNN/ # 1,399个论文目录 │ ├── labels.json # 论文级元数据+方法标签 │ ├── paper_text.json # 摘要、正文摘录、标题文本 │ └── figures/ │ └── <fig_id>/ │ ├── figure.png # 高分辨率图像裁剪 │ └── annotations.json # Schema v2边界框记录 ├── master_index.csv # 平坦索引(每张图像一行) ├── data_points.csv # 平坦索引(每个边界框一行) ├── data_points.jsonl # 同上,JSON格式 ├── figures.jsonl # 图像级记录+文本信号 ├── group_qualitative_claims.json # 已验证的组级声明记录 ├── mcq_validations.json # MCQ格式人工验证记录 ├── paper_sources.csv # 论文来源信息 ├── csv_export/ # 扁平CSV导出 ├── eda/ # 描述性图表+EDA报告 ├── docs/ # 模式文档 ├── eval/ # 评估文件(332个测试问题、1,960个DPO对) ├── code/ # 流水线源代码 ├── gallery/ # 示例浏览器 ├── LICENSE └── README.md

评估资源

文件 记录数 用途
eval/test_questions.jsonl 332 保留评估集(四选一问题)
eval/dpo_pairs.jsonl 1,960 DPO偏好记录(训练+评估)
code/train_dpo_example.py DPO训练参考脚本

已知限制

  1. 领域偏差: 偏向3D视觉任务(NeRF/3DGS等占约27%)
  2. 14.9%通用标签: 方法名称提取失败时使用method_N占位符
  3. 583张图像待审核: 截至v4.4版本
  4. 仅英语: 未收集多语言论文
  5. 无定量-定性配对: 未链接定性图像与定量结果表
  6. 定性分类器脆弱: 基于9关键词的正则表达式过滤
  7. 无固定训练/验证/测试划分: 计划中但尚未锁定
  8. 标注者间一致性未计算: 计划进行100张图像重叠审核
搜集汇总
数据集介绍
main_image_url
构建方式
VisionQ-1k的构建历经精密的多阶段流水线。首先,从CVPR、ICCV、ECCV、NeurIPS及SIGGRAPH 2023–2024会议中筛选出1,399篇论文,通过高分辨率PDF渲染与PP-DocLayout-L布局检测器提取3,354幅定性比较图。随后,采用Gemini 3.1 Flash Lite模型对每幅图进行边界框自动标注,生成48,167个遵循Schema v2规范的十字段记录,涵盖几何坐标、方法身份、场景位置及语义角色。最后,通过四名标注员的人工审核对2,771幅图进行批准或拒绝,并利用Claude Haiku 4.5提取论文级方法名称,补全组级定性声明中的空白条目。
特点
该数据集的核心特色在于其精细的逐区域视觉质量标注,而非传统的整体图像评分。每个边界框均包含方法名称、可视化类型(如RGB、网格、深度图)及空间角色(主图、缩放图、辅助图),使评估能够精确到对比网格中的单个单元格。数据集覆盖857种不同的提出方法,并蕴含4,365个经人工验证的组级定性声明,为训练VLM作为裁判提供了丰富的监督信号。此外,其明确的领域偏向(以三维视觉任务为主)既构成了应用范围的局限,也赋予了对该领域模型进行深度评测的独特价值。
使用方法
研究者可通过加载master_index.csv索引文件快速定位特定论文与图,继而读取对应目录下的figure.png图像及annotations.json中的Schema v2注释。数据点的扁平化版本存于data_points.csv或data_points.jsonl,便于批量处理。为简化评估,数据集还提供eval/文件夹,内含332个BLINK风格的四选一测试问题与1,960个DPO偏好对,可直接用于训练与评测。参考训练脚本code/train_dpo_example.py展示了如何结合trl库的DPOTrainer加载数据,而所有图像路径均相对于仓库根目录,引入后即可直接解析使用。
背景与挑战
背景概述
VisionQ-1k 数据集由研究团队于 2024 年构建,旨在弥补现有视觉质量基准在细粒度区域级评估上的不足。现有评估方法多基于图像级或任务级评分,难以精准衡量计算机视觉论文中常见的多方法比较网格图中各单元(如不同方法在相同输入上的输出)的细微质量差异。该数据集从 CVPR、ICCV、ECCV、NeurIPS 和 SIGGRAPH 2023–2024 的 1,399 篇论文中提取了 3,354 张定性比较图,并由人工标注了 48,167 个区域级边界框,每个边界框携带 10 字段的 Schema v2 记录,涵盖几何、方法身份、场景位置和语义角色。数据集还提供了 4,365 条经人工验证的组级定性声明,直接支持视觉语言模型(VLM)作为裁判的监督与评估。VisionQ-1k 的出现为视觉质量判断领域提供了首个区域级基准,推动了 VLM 在学术图表理解中的细粒度评估能力。
当前挑战
该数据集面临多重挑战。首先,在领域问题层面,现有视觉质量基准(如图像级评分或任务级问答)无法处理计算机视觉论文中常见的多方法比较网格图,其中每个单元格代表不同方法在相同输入上的输出,且质量差异细微(如边界锐利度、表面噪声、重建保真度)。其次,在构建过程中,自动标注流程存在关键瓶颈:用于筛选定性比较图的 9 关键词正则表达式过于脆弱,导致约 41% 的拒绝案例为误判;方法名称提取器在 14.9% 的边界框中退化为位置占位符;数据集存在显著的领域偏差,偏向 3D 视觉任务(如 NeRF 和生成式 3D),限制了其泛化性。此外,583 张图仍待人工审核,且未冻结训练/验证/测试划分,跨标注者一致性评估尚在规划中。这些挑战共同影响了数据集的完整性和可靠性。
常用场景
经典使用场景
VisionQ-1k数据集最经典的使用场景在于评估和训练视觉语言模型(VLM)对学术图表中局部区域视觉质量的判别能力。该数据集聚焦于计算机视觉论文中常见的多方法对比网格图,其中每个单元格展示了不同方法在同一输入上的输出结果,质量差异细微如边界清晰度、表面噪声或重建保真度。通过提供每区域级别的细粒度标注——涵盖几何信息、方法身份、场景行位置和语义角色——VisionQ-1k使研究者能够构建要求VLM识别特定单元格优劣的基准测试,而非仅对整张图片进行评分。这一设计填补了现有视觉质量基准在区域级粒度上的空白,为评估VLM作为评判者的能力提供了标准化平台。
解决学术问题
该数据集有效解决了学术研究中缺乏细粒度视觉质量基准的痛点。传统评估方法仅在图像级别或任务级别打分,无法捕捉多方法对比图中各区域间的微妙质量差异。VisionQ-1k通过提供48,167个人工验证的边界框标注和4,365个组级定性主张记录,使研究者能系统性地探究VLM在识别特定方法输出优劣上的表现。其意义在于推动VLM从全局理解向局部精细判别演进,为对比分析图像生成、三维重建、渲染等多种技术路线提供了可靠的数据基础,显著提升了学术比较的客观性与可复现性。这一基准也促进了VLM作为自动评审工具在论文审阅流程中的潜在应用。
衍生相关工作
VisionQ-1k的发布已催生了一系列经典相关工作。基于其区域级标注体系,研究者开发了VLM-as-Judge基准测试,专门评估模型在对比网格图中识别更优方法的准确性。数据集还衍生出偏好优化(DPO)训练方法,通过其提供的1,960对偏好记录训练VLM进行更符合人类判断的质量排序。此外,Schema v2标注格式被多个后续数据集采纳为标准模板,用于规范化学术图表中的方法比较结构。这些衍生工作共同推动了视觉语言模型在细粒度质量评估、自动化论文分析以及研究结果比较等方向的发展,形成了系统的研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作