OrionBench
收藏arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://github.com/OrionBench/OrionBench/, https://huggingface.co/datasets/OrionBench/OrionBench
下载链接
链接失效反馈官方服务:
资源简介:
OrionBench是一个用于图表和可识别对象检测的数据集,包含26,250个真实和78,750个合成信息图,以及超过690万个边界框标注。这些标注是通过结合模型循环和程序化方法创建的。OrionBench旨在支持开发精确的图表和可识别对象检测模型,并包含105,000个标注信息图。数据集被分为训练集和测试集,用于评估模型性能。OrionBench的创建过程包括信息图收集和信息图标注两个主要步骤。真实信息图来自在线平台,合成信息图则基于设计模板创建。为了有效标注信息图,采用了模型循环和程序化方法。OrionBench在图表理解、信息图对象检测和图形布局检测方面具有广泛应用。
提供机构:
清华大学软件学院,微软亚洲研究院
创建时间:
2025-05-23
搜集汇总
数据集介绍

构建方式
OrionBench数据集的构建采用了双轨并行策略,结合真实信息图表采集与程序化合成方法。针对26,250张真实信息图表,研究团队通过专家筛选种子集后,采用基于平台推荐系统的雪球采样法从7个在线平台获取,并经过CLIP相似度去重和GPT-4o质量过滤。对于78,750张合成信息图表,则基于1,072个设计模板,通过填充VizNet数据表、GPT-4o生成描述文本及IconQA图标库自动生成。标注环节创新性地采用模型协同循环标注机制:对合成图表直接解析SVG文件获取程序化标注;对真实图表则通过InternImage-L模型迭代生成标注,经多轮专家修正后达到93.9%精确率与96.7%召回率,最终形成包含694万标注的大规模基准。
特点
该数据集的核心特征体现在三维度异构性:样本维度包含26,250张真实图表与78,750张合成图表的平衡配比;标注维度覆盖5,789,902个文本、245,137个图表及909,874个人类可识别对象(HRO)的细粒度标注;类别维度则对图表细分67种子类型,HRO区分数据相关与主题相关对象。特别设计的两阶段评估体系(100,000训练集与5,000人工精校测试集)确保模型验证可靠性。相较于现有基准,其突破性在于首次实现真实场景复杂信息图表与合成图表的结构化协同,并通过模型-专家协同标注机制解决了传统人工标注的规模瓶颈。
使用方法
数据集支持三种典型应用范式:首先,基于思维链的视觉推理(Thinking-with-Boxes)将检测到的图表元素作为视觉提示输入VLMs,在ChartQAPro基准上使o4-mini模型准确率提升1.7%;其次,通过标准微调流程评估11种检测模型,最佳模型Co-DETR达到90.1%图表检测AP与86.0% HRO检测AP;最后,经OrionBench预训练的InternImage模型在Rico和DocGenome布局检测任务中分别提升1.8%和1.3% mAP。使用者可通过HuggingFace获取标准化数据分割与标注格式,配套提供PPOCRv4文本检测模型与InternImage检测框架实现端到端应用。
背景与挑战
背景概述
OrionBench是由清华大学软件学院与微软亚洲研究院联合开发的大规模信息图表基准数据集,于2025年5月正式发布。该数据集聚焦于解决视觉语言模型在信息图表元素视觉定位不准确的瓶颈问题,包含78,750张合成信息图表和26,250张真实信息图表,标注总量达694万。其创新性地采用模型在环与程序化结合的标注方法,通过InternImage检测模型与专家协同标注,显著提升了图表和人可识别对象的检测精度。作为首个融合真实与合成信息图表的大规模基准,OrionBench为提升图表理解能力提供了关键数据支撑,在文档布局分析、UI元素检测等衍生任务中展现出卓越的迁移价值。
当前挑战
OrionBench面临双重技术挑战:在领域问题层面,信息图表元素存在显著类内差异(67类图表样式差异)和边界模糊性(图文混排重叠率达38.7%),传统检测模型平均精度不足45%;在构建过程中,真实图表标注需经5轮模型-专家迭代优化,单张图表平均标注耗时12分钟,合成图表虽采用1,072种模板程序化生成,但需通过CLIP相似度≥0.9的质量验证。此外,现有视觉语言模型在ChartQAPro基准上的推理错误中,62%源于元素关联失效,突显了精准视觉定位的迫切需求。
常用场景
经典使用场景
OrionBench作为信息图表中图表和人类可识别对象检测的基准,在计算机视觉和自然语言处理领域具有广泛的应用。该数据集通过提供大量真实和合成的信息图表,以及详细的边界框标注,为研究人员开发先进的视觉语言模型(VLMs)提供了重要支持。其经典使用场景包括提升模型在复杂信息图表中的元素检测能力,以及通过视觉推理增强图表理解性能。
解决学术问题
OrionBench解决了现有视觉语言模型在信息图表元素检测中的关键问题,特别是针对图表和人类可识别对象(HROs)的视觉定位不准确问题。通过提供多样化的信息图表和精确的标注,该数据集显著提升了模型在复杂视觉场景中的检测和推理能力,填补了现有数据集中缺乏大规模标注信息图表的空白。
衍生相关工作
OrionBench的发布催生了一系列相关研究,特别是在视觉语言模型和对象检测领域。基于该数据集的研究工作包括改进的视觉推理方法、新型对象检测模型的开发,以及信息图表设计原则的自动化分析。这些工作进一步推动了计算机视觉和自然语言处理的交叉研究。
以上内容由遇见数据集搜集并总结生成



