MMMDC-BENCH

github2026-05-05 更新2026-05-07 收录

下载链接：

https://github.com/MMMDC-Bench/MMMDC-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MMMDC-BENCH是一个多粒度、多场景多模态文档分类基准测试，旨在严格评估大型多模态模型（LMMs）在现实和多样化应用场景中的文档分类能力。

MMMDC-BENCH is a multi-granularity, multi-scenario multimodal document classification benchmark, which aims to rigorously evaluate the document classification capabilities of large multimodal models (LMMs) in realistic and diverse application scenarios.

创建时间：

2026-05-03

原始信息汇总

MMMDC-Bench 数据集详情

📖 概述

MMMDC-BENCH 是一个多粒度、多场景、多模态文档分类基准数据集，旨在评估大型多模态模型在真实多样化应用场景中的文档分类能力。

🌲 文档分类体系

该数据集采用层次化分类体系（Hierarchical Taxonomy），具体的分类结构图可参考项目中的 ./figs/doc_taxnomy.png 文件。

📊 基准测试结果

测试结果分为无检索（No-Retrieval）和检索（Retrieval）两个赛道，结果图可参考 ./figs/no-retrieval-track.png 文件。

⚙️ 环境配置

Python版本：3.10.19
依赖安装：运行 pip install -r requirements.txt

📊 数据准备

1) DP策略数据集构建

使用脚本：scripts/data_construct/hierarchical_dp_data_construct_configurable.sh
需要配置：
- DATA_PATH：表格文件路径（如 ./datasets/test.csv）
- LABEL_CONFIG_PATH：./datasets/document_taxonomy.json
- COL_MAP：列名映射（包括 ocr_text、image_path、file_name、file_type）

2) 检索候选预计算数据集构建

使用脚本：scripts/data_construct/hierarchical_retrieval_candidates_precomputed_data_construct_configurable.sh
需要配置：
- DATA_PATH：包含候选标签列的输入表格
- CANDIDATE_COL：候选标签列名（默认 candidate_labels）
- LABEL_CONFIG_PATH：./datasets/document_taxonomy.json
生成数据保存在 datasets/vlm_* 目录

🔧 推理

使用OpenAI API进行推理

脚本：scripts/llm_infer/run_hierarchical_doc_cls_infer_on_llm_api.sh
需要配置：
- INPUT：输入JSON文件
- OUTPUT：输出预测结果路径
- MODEL_NAME、BASE_URL、API_KEY、API_PROTOCOL
- 可选参数：MAX_WORKERS、BATCH_SIZE、RESUME_FLAG、分片配置

使用本地模型权重推理

脚本：scripts/llm_infer/run_hierarchical_doc_cls_infer_on_llm_weights.sh
可使用vLLM部署本地模型

📃 评估

评估脚本：scripts/evaluate/run_hierarchical_doc_cls_eval.sh
配置变量包括：
- STRATEGY：策略可选值 dp、dl、dh、tmh、dh_cot、few_shot、retrieval_candidates_precomputed
- PREDICT_ROOT、DATASET_NAME、PREDICT_FILE_PREFIX
- LABEL_CONFIG_PATH：分类体系配置（./datasets/document_taxonomy.json）
- OUTPUT_FIELD、PREDICT_FIELD：真值/预测字段名

📝 引用

bibtex @article{mmmdc2026, title={A Multi-Scenario Multi-Modal Document Classification Benchmark with Multi-grained Hierarchical Taxonomy}, author={Anoymous Author}, journal={arXiv preprint}, year={2026} }

📄 许可证

数据集仅限学术研究使用
代码采用MIT许可证

搜集汇总

数据集介绍

构建方式

MMMDC-BENCH数据集的构建基于多粒度层次化文档分类体系，涵盖多个真实应用场景。首先，通过DP策略构建层次化数据集，利用脚本`hierarchical_dp_data_construct_configurable.sh`处理输入表格（如`test.csv`或`demo.csv`），并映射`ocr_text`、`image_path`等字段。其次，通过检索候选预计算方式构建数据集，使用`hierarchical_retrieval_candidates_precomputed_data_construct_configurable.sh`脚本处理包含候选标签列的表格，最终生成存储在`datasets/vlm_*`目录下的JSON文件。标签配置来源于`document_taxonomy.json`层次分类体系。

使用方法

使用MMMDC-BENCH时，首先通过`setup`部分安装依赖（Python 3.10.19及`requirements.txt`）。数据准备阶段运行对应构建脚本，配置数据路径、标签配置文件和列映射。推理阶段利用OpenAI API或本地模型权重，执行`run_hierarchical_doc_cls_infer_on_llm_api.sh`脚本，指定输入JSON、输出路径、模型参数等；也可使用vLLM部署本地模型。评估阶段运行`run_hierarchical_doc_cls_eval.sh`，配置策略、预测目录和标签路径，支持自动计算多粒度分类指标并生成详细结果报告。所有阶段均提供Python入口，便于集成和调试。

背景与挑战

背景概述

文档分类作为自然语言处理与计算机视觉交叉领域中的基础任务，其研究脉络始终与大规模多模态数据的涌现相伴相生。近年来，大型多模态模型（LMMs）在视觉理解与文本推理方面展现出了卓越的潜力，然而现有基准多聚焦于单一场景下的简单分类，难以全面评估模型在真实世界中面对多源异构文档时的泛化能力。在此背景下，MMMDC-BENCH于2026年由匿名研究团队提出，旨在构建一个涵盖多场景、多粒度层级分类体系的多模态文档分类基准。该基准基于精细化的文档分类学组织数据，通过整合OCR文本、图像布局等异构信息，系统性考察LMMs在多样化应用场景下的细粒度分类性能，为文档智能领域的发展提供了标准化的评估范式和重要的数据支撑。

当前挑战

MMMDC-BENCH所面临的挑战主要体现在两个维度。在领域问题层面，现有文档分类方法多依赖单一模态或粗粒度标签体系，难以应对真实场景中文档类型的多模态异构性、层级分类的自洽性以及领域迁移的鲁棒性，亟需构建兼顾细粒度与层次化结构的评估体系。在构建过程中，数据集的构建面临多源文档的标注一致性难题，不同场景下的文档图像质量差异显著，且层级标签的语义边界模糊导致标注噪声累积。此外，大规模多模态数据的检索与对齐、跨模态特征的融合策略，以及层级分类任务下评估指标的统一设计，均是构建过程中亟待攻克的技术瓶颈。

常用场景

经典使用场景

MMMDC-BENCH作为首个面向多模态大语言模型的细粒度层次化文档分类基准，其经典使用场景在于系统性地评估LMMs在跨领域、多模态复杂文档中的理解与分类能力。该基准涵盖多种真实应用场景，如财务报表、技术报告、医疗单据及法律文书等，要求模型结合文本OCR结果与视觉图像信息，在层次化标签体系下完成从粗粒度到细粒度的逐级分类，从而全面检验模型在多模态融合、长文推理与结构化语义理解方面的综合表现。

解决学术问题

该数据集有效解决了现有文档分类基准中场景单一、粒度粗糙以及缺乏多模态层次化标签体系的核心学术困境。通过引入涵盖多种文档类型与业务场景的层次化分类体系，MMMDC-BENCH为研究者提供了一个标准化、可复现的评估平台，以剖析LMMs在不同分类难度下的性能短板，推动了多模态理解领域从平面分类向结构化推理的范式演进，为构建更具鲁棒性与泛化能力的文档智能模型奠定了重要基础。

实际应用

在实际应用中，MMMDC-BENCH所驱动的文档分类技术可广泛部署于智能办公、金融审核、医疗档案管理与法律卷宗归类等高频场景中。例如，企业可借助基于该基准训练的模型自动解析合同条款、识别发票类别并归档单据，显著降低人工标注成本。在金融风控领域，系统能够对年报、财报等非结构化文档进行实时分类与风险标签提取，提升决策效率。医疗健康场景中，该技术可辅助从病历、影像报告中自动抽取关键信息并归入疾病诊断层级，助力临床数据治理与智慧医院建设。

数据集最近研究