OmniParsingBench

Name: OmniParsingBench
Creator: 阿里巴巴集团
Published: 2026-03-10 21:46:32
License: 暂无描述

arXiv2026-03-10 更新2026-03-12 收录

下载链接：

https://github.com/alibaba/Logics-Parsing/tree/master/Logics-Parsing-Omni

下载链接

链接失效反馈

官方服务：

资源简介：

OmniParsingBench是由阿里巴巴集团提出的一个多模态解析基准数据集，旨在支持文档、图像和视听流的统一解析。该数据集包含丰富的知识密集型图像样本和优化的视频注释，用于细粒度分析和长教育内容理解。数据集构建过程采用了三阶段渐进式解析框架，从整体检测到细粒度识别再到多级解释，最终输出标准化的JSON格式数据。该数据集主要应用于多模态大语言模型的训练和评估，旨在解决复杂视听信号到结构化知识的转换问题，提升模型在检索增强生成、问答等下游任务中的可靠性。

OmniParsingBench is a multimodal parsing benchmark dataset proposed by Alibaba Group, aiming to support unified parsing of documents, images and audiovisual streams. This dataset contains rich knowledge-intensive image samples and optimized video annotations, which are designed for fine-grained analysis and long educational content understanding. The dataset construction adopts a three-stage progressive parsing framework, ranging from holistic detection, fine-grained recognition to multi-level interpretation, and finally outputs standardized JSON-formatted data. This dataset is mainly applied to the training and evaluation of multimodal large language models (LLMs), with the goal of solving the conversion problem from complex audiovisual signals to structured knowledge and improving the reliability of models in downstream tasks such as retrieval-augmented generation and question answering.

提供机构：

阿里巴巴集团

创建时间：

2026-03-10

搜集汇总

数据集介绍

构建方式

在构建OmniParsingBench数据集时，研究团队采用了层级化的渐进式解析框架，将多模态数据统一转化为结构化知识。该框架包含三个核心阶段：首先进行整体检测，实现对象或事件的时空定位；随后执行细粒度识别，对局部化对象进行符号化与属性提取；最终开展多层级语义解释，构建从局部语义到全局逻辑的推理链条。数据集覆盖文档、图像、音频和视频四大模态，通过自动化标注流水线与专家验证相结合的方式，确保标注的精确性与一致性。特别针对知识密集型图像和长时教育视频，优化了实体识别与时间对齐的标注策略，形成了总计超过2100万样本的大规模高质量语料库。

特点

OmniParsingBench数据集的核心特点在于其统一的多模态解析评估体系与严谨的结构化输出规范。该数据集严格遵循感知与认知协同的评估理念，将解析能力系统划分为感知与认知两个维度：感知维度评估模型在时空定位、符号提取和结构还原方面的基础能力；认知维度则侧重于语义一致性、逻辑推理和幻觉抵抗等高层理解任务。数据集涵盖自然图像、信息图表、文档、音频、自然视频和文本密集型视频六大领域，每个领域均设计了细粒度的评估指标。其输出采用标准化的JSON格式，确保解析结果具备可定位、可枚举和可追溯的特性，为多模态模型的性能提供了全面而可靠的量化基准。

使用方法

使用OmniParsingBench数据集进行模型评估时，需遵循其预设的三阶段解析范式与结构化输出要求。评估流程要求模型接收多模态输入——包括图像、文档、音频或视频——并生成符合统一模式的JSON解析结果。该结果需清晰呈现从L1整体检测到L3语义解释的完整推理链条。评估系统随后将模型的输出与高质量人工标注进行比对，在感知维度计算定位精度、内容匹配度等指标，在认知维度则通过基于LLM的自动化问答或语义相似度计算来评判逻辑连贯性与事实准确性。研究者可通过该基准系统性地诊断模型在不同模态和任务层级上的能力边界，为模型优化与算法创新提供明确方向。

背景与挑战

背景概述

OmniParsingBench是由阿里巴巴集团Logics团队于2026年构建并发布的一个标准化多模态解析评估基准。该基准的提出源于多模态大语言模型在知识密集型领域应用时面临的严峻挑战，特别是针对视觉丰富的文档和长时教育视频等复杂媒体。传统方法在处理高密度文本、复杂布局及多样化非文本视觉内容时，往往存在结构解析与语义理解割裂的问题，导致生成的信息缺乏可定位性、可枚举性与可追溯性。OmniParsingBench作为Omni Parsing框架的核心组成部分，旨在系统评估模型从基础信号感知到高级语义推理的全栈能力，其构建标志着多模态解析从任务碎片化走向统一化的重要进展，为后续研究提供了可靠的量化基础设施。

当前挑战

OmniParsingBench致力于解决多模态统一解析的核心挑战，即在文档、图像、音频与视频等多种异构模态中，实现从像素级感知到逻辑级认知的连贯转化。具体挑战包括：在领域问题层面，需克服传统方法在跨模态结构化表示上的局限性，例如文档中图表语义丢失、视频中视听信号脱节、以及通用描述缺乏细粒度空间锚定等问题；在构建过程层面，面临多模态数据标注的复杂性与一致性难题，包括如何设计统一的渐进式解析范式（L1整体检测、L2细粒度识别、L3多级解释）来标准化不同模态的标注体系，以及如何确保时间对齐的音频事件检测、高精度几何关系提取、长时视频语义分段等具体任务中标注的准确性与可扩展性。

常用场景

经典使用场景

在跨模态解析研究领域，OmniParsingBench作为标准化的评估基准，其经典使用场景在于系统性地衡量多模态大语言模型在文档、图像和音视频流上的统一解析能力。该基准严格遵循三级渐进式解析架构，从L1整体检测的空间-时间定位与粗分类，到L2细粒度识别的符号提取与属性识别，最终延伸至L3多级解释的语义一致性与逻辑推理。通过将细粒度指标聚合为感知与认知两大核心分数，研究者能够全面评估模型在信号精度、结构保真度以及高层语义理解方面的综合表现，为模型优化与比较提供了严谨的量化依据。

解决学术问题

OmniParsingBench致力于解决多模态人工智能研究中长期存在的任务定义碎片化与数据异构性难题。传统方法往往将感知与认知割裂处理，导致低层特征提取与高层语义描述之间缺乏严格对齐，进而引发幻觉或信息丢失。该数据集通过引入证据锚定机制，强制高层语义描述与低层事实之间建立严格对应，实现了“基于证据”的逻辑归纳。它将非结构化信号转化为可定位、可枚举、可追溯的标准化知识，有效弥合了像素级感知与语义级认知之间的鸿沟，为构建可靠、可解释的多模态理解系统奠定了理论基础。

衍生相关工作

以OmniParsingBench为评估核心的Logics-Parsing-Omni框架，衍生了一系列推动领域发展的经典工作。其提出的三级渐进式解析范式为后续统一多模态理解模型设立了新的架构标准。相关工作深入探索了知识增强的实体解析、图表的结构化反渲染以及几何图形的拓扑关系提取等专项能力。该基准亦催生了针对长文本教学视频的深度结构化摘要、针对专业摄像机运动的细粒度分析等新兴研究方向。这些衍生工作共同深化了对多模态信号中结构保真与语义推理协同机制的理解，为构建下一代可追溯、可验证的人工智能系统提供了关键基础设施与方法论指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集