OrionBench

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/OrionBench/OrionBench

下载链接

链接失效反馈

官方服务：

资源简介：

OrionBench是一个图表和人类可识别对象检测的基准数据集，包含26,250张真实信息图表和78,750张合成信息图表，共有超过6.9百万个边界框注释。这些注释通过模型在环和程序化方法相结合的方式生成。

创建时间：

2025-05-04

搜集汇总

数据集介绍

构建方式

在信息图表理解领域，OrionBench通过融合模型辅助与程序化标注策略构建而成。该数据集包含26,750张真实信息图表与78,750张合成图表，总计生成超过690万边界框标注。其标注体系采用COCO标准格式，通过分离文本与非文本元素的标注层级，为图表与人类可识别对象的检测任务建立了精细化标注基准。

特点

作为专攻信息图表元素检测的基准数据集，其核心价值体现在多模态标注体系与规模优势。数据集涵盖图表、图标及图像三类人类可识别对象，通过真实与合成数据的协同构建，既保留了自然场景的复杂性，又具备程序化生成的数据可控性。超过百万量级的标注实例使其成为当前最具规模的信息图表元素检测资源。

使用方法

研究者可通过下载分段的训练集与测试集文件开展模型开发，其中JSON文件提供符合COCO标准的标注信息。实际应用时支持三种实验范式：直接使用完整标注进行端到端训练，或分别利用非文本与文本标注文件开展专项研究。该数据集已验证于视觉语言模型的思维增强、检测模型性能对比、文档布局分析等跨领域任务。

背景与挑战

背景概述

随着信息图表在科学传播与商业分析中的广泛应用，视觉语言模型对图表元素的精准理解已成为关键研究课题。由朱江宁等人于2025年提出的OrionBench基准数据集，旨在解决现有模型对信息图表中可视化元素（如图表、图标等人类可识别对象）定位不准的缺陷。该数据集通过融合真实与合成数据构建了包含10.5万张信息图表及690万边界框标注的大规模资源，其创新性地采用模型参与循环与程序化标注相结合的方法，为提升多模态推理能力提供了重要基础设施。

当前挑战

在图表理解领域，视觉语言模型长期面临视觉基础定位不精确的核心难题，具体表现为对信息图表中混合元素的分离识别与空间关系推理能力不足。数据集构建过程中需应对多模态标注的复杂性：既要保证对非文本元素（图表、图标）的边界框标注精度，又需协调程序化生成与人工验证的平衡。此外，合成数据与真实场景的语义一致性维护、以及跨领域迁移时的标注规范统一，均为构建过程带来显著挑战。

常用场景

经典使用场景

在信息图表分析领域，OrionBench作为专门针对图表和人类可识别对象的检测基准，其经典应用场景集中于评估和提升视觉语言模型在复杂信息图表中的元素定位能力。通过提供包含真实与合成信息图表的丰富标注数据，该数据集支持研究者系统性地测试模型对图表、图标及图像等非文本元素的检测精度，为视觉语言理解的细粒度研究奠定了坚实基础。

衍生相关工作

围绕OrionBench衍生的经典研究工作主要体现在三个方向：基于思维框（Thinking-with-Boxes）的视觉语言模型增强架构、现有目标检测模型的系统性比较研究，以及检测模型在文档布局分析领域的迁移应用。这些工作不仅验证了数据集的实用价值，更为信息图表理解领域建立了新的技术范式，推动了多模态人工智能研究向更深层次发展。

数据集最近研究