five

MMMDC-BENCH

收藏
github2026-05-05 更新2026-05-07 收录
下载链接:
https://github.com/MMMDC-Bench/MMMDC-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
MMMDC-BENCH是一个多粒度、多场景多模态文档分类基准测试,旨在严格评估大型多模态模型(LMMs)在现实和多样化应用场景中的文档分类能力。

MMMDC-BENCH is a multi-granularity, multi-scenario multimodal document classification benchmark, which aims to rigorously evaluate the document classification capabilities of large multimodal models (LMMs) in realistic and diverse application scenarios.
创建时间:
2026-05-03
原始信息汇总

MMMDC-Bench 数据集详情

📖 概述

MMMDC-BENCH 是一个多粒度、多场景、多模态文档分类基准数据集,旨在评估大型多模态模型在真实多样化应用场景中的文档分类能力。

🌲 文档分类体系

该数据集采用层次化分类体系(Hierarchical Taxonomy),具体的分类结构图可参考项目中的 ./figs/doc_taxnomy.png 文件。

📊 基准测试结果

测试结果分为无检索(No-Retrieval)和检索(Retrieval)两个赛道,结果图可参考 ./figs/no-retrieval-track.png 文件。

⚙️ 环境配置

  • Python版本:3.10.19
  • 依赖安装:运行 pip install -r requirements.txt

📊 数据准备

1) DP策略数据集构建

  • 使用脚本:scripts/data_construct/hierarchical_dp_data_construct_configurable.sh
  • 需要配置:
    • DATA_PATH:表格文件路径(如 ./datasets/test.csv
    • LABEL_CONFIG_PATH./datasets/document_taxonomy.json
    • COL_MAP:列名映射(包括 ocr_textimage_pathfile_namefile_type

2) 检索候选预计算数据集构建

  • 使用脚本:scripts/data_construct/hierarchical_retrieval_candidates_precomputed_data_construct_configurable.sh
  • 需要配置:
    • DATA_PATH:包含候选标签列的输入表格
    • CANDIDATE_COL:候选标签列名(默认 candidate_labels
    • LABEL_CONFIG_PATH./datasets/document_taxonomy.json
  • 生成数据保存在 datasets/vlm_* 目录

🔧 推理

使用OpenAI API进行推理

  • 脚本:scripts/llm_infer/run_hierarchical_doc_cls_infer_on_llm_api.sh
  • 需要配置:
    • INPUT:输入JSON文件
    • OUTPUT:输出预测结果路径
    • MODEL_NAMEBASE_URLAPI_KEYAPI_PROTOCOL
    • 可选参数:MAX_WORKERSBATCH_SIZERESUME_FLAG、分片配置

使用本地模型权重推理

  • 脚本:scripts/llm_infer/run_hierarchical_doc_cls_infer_on_llm_weights.sh
  • 可使用vLLM部署本地模型

📃 评估

  • 评估脚本:scripts/evaluate/run_hierarchical_doc_cls_eval.sh
  • 配置变量包括:
    • STRATEGY:策略可选值 dpdldhtmhdh_cotfew_shotretrieval_candidates_precomputed
    • PREDICT_ROOTDATASET_NAMEPREDICT_FILE_PREFIX
    • LABEL_CONFIG_PATH:分类体系配置(./datasets/document_taxonomy.json
    • OUTPUT_FIELDPREDICT_FIELD:真值/预测字段名

📝 引用

bibtex @article{mmmdc2026, title={A Multi-Scenario Multi-Modal Document Classification Benchmark with Multi-grained Hierarchical Taxonomy}, author={Anoymous Author}, journal={arXiv preprint}, year={2026} }

📄 许可证

  • 数据集仅限学术研究使用
  • 代码采用MIT许可证
搜集汇总
数据集介绍
main_image_url
构建方式
MMMDC-BENCH数据集的构建基于多粒度层次化文档分类体系,涵盖多个真实应用场景。首先,通过DP策略构建层次化数据集,利用脚本`hierarchical_dp_data_construct_configurable.sh`处理输入表格(如`test.csv`或`demo.csv`),并映射`ocr_text`、`image_path`等字段。其次,通过检索候选预计算方式构建数据集,使用`hierarchical_retrieval_candidates_precomputed_data_construct_configurable.sh`脚本处理包含候选标签列的表格,最终生成存储在`datasets/vlm_*`目录下的JSON文件。标签配置来源于`document_taxonomy.json`层次分类体系。
使用方法
使用MMMDC-BENCH时,首先通过`setup`部分安装依赖(Python 3.10.19及`requirements.txt`)。数据准备阶段运行对应构建脚本,配置数据路径、标签配置文件和列映射。推理阶段利用OpenAI API或本地模型权重,执行`run_hierarchical_doc_cls_infer_on_llm_api.sh`脚本,指定输入JSON、输出路径、模型参数等;也可使用vLLM部署本地模型。评估阶段运行`run_hierarchical_doc_cls_eval.sh`,配置策略、预测目录和标签路径,支持自动计算多粒度分类指标并生成详细结果报告。所有阶段均提供Python入口,便于集成和调试。
背景与挑战
背景概述
文档分类作为自然语言处理与计算机视觉交叉领域中的基础任务,其研究脉络始终与大规模多模态数据的涌现相伴相生。近年来,大型多模态模型(LMMs)在视觉理解与文本推理方面展现出了卓越的潜力,然而现有基准多聚焦于单一场景下的简单分类,难以全面评估模型在真实世界中面对多源异构文档时的泛化能力。在此背景下,MMMDC-BENCH于2026年由匿名研究团队提出,旨在构建一个涵盖多场景、多粒度层级分类体系的多模态文档分类基准。该基准基于精细化的文档分类学组织数据,通过整合OCR文本、图像布局等异构信息,系统性考察LMMs在多样化应用场景下的细粒度分类性能,为文档智能领域的发展提供了标准化的评估范式和重要的数据支撑。
当前挑战
MMMDC-BENCH所面临的挑战主要体现在两个维度。在领域问题层面,现有文档分类方法多依赖单一模态或粗粒度标签体系,难以应对真实场景中文档类型的多模态异构性、层级分类的自洽性以及领域迁移的鲁棒性,亟需构建兼顾细粒度与层次化结构的评估体系。在构建过程中,数据集的构建面临多源文档的标注一致性难题,不同场景下的文档图像质量差异显著,且层级标签的语义边界模糊导致标注噪声累积。此外,大规模多模态数据的检索与对齐、跨模态特征的融合策略,以及层级分类任务下评估指标的统一设计,均是构建过程中亟待攻克的技术瓶颈。
常用场景
经典使用场景
MMMDC-BENCH作为首个面向多模态大语言模型的细粒度层次化文档分类基准,其经典使用场景在于系统性地评估LMMs在跨领域、多模态复杂文档中的理解与分类能力。该基准涵盖多种真实应用场景,如财务报表、技术报告、医疗单据及法律文书等,要求模型结合文本OCR结果与视觉图像信息,在层次化标签体系下完成从粗粒度到细粒度的逐级分类,从而全面检验模型在多模态融合、长文推理与结构化语义理解方面的综合表现。
解决学术问题
该数据集有效解决了现有文档分类基准中场景单一、粒度粗糙以及缺乏多模态层次化标签体系的核心学术困境。通过引入涵盖多种文档类型与业务场景的层次化分类体系,MMMDC-BENCH为研究者提供了一个标准化、可复现的评估平台,以剖析LMMs在不同分类难度下的性能短板,推动了多模态理解领域从平面分类向结构化推理的范式演进,为构建更具鲁棒性与泛化能力的文档智能模型奠定了重要基础。
实际应用
在实际应用中,MMMDC-BENCH所驱动的文档分类技术可广泛部署于智能办公、金融审核、医疗档案管理与法律卷宗归类等高频场景中。例如,企业可借助基于该基准训练的模型自动解析合同条款、识别发票类别并归档单据,显著降低人工标注成本。在金融风控领域,系统能够对年报、财报等非结构化文档进行实时分类与风险标签提取,提升决策效率。医疗健康场景中,该技术可辅助从病历、影像报告中自动抽取关键信息并归入疾病诊断层级,助力临床数据治理与智慧医院建设。
数据集最近研究
最新研究方向
面向多模态大模型的多场景文档分类前沿研究。随着企业数字化转型与智能文档处理需求的激增,文档分类领域正经历从单一文本分析向多模态融合的范式跃迁。MMMDC-BENCH数据集应运而生,它开创性地构建了涵盖多种真实应用场景的细粒度层次化文档分类基准,聚焦于评估大型多模态模型在复杂文档结构中的分类能力。该基准紧密关联当前大语言模型与视觉-语言模型在工业文档、金融票据、学术论文等领域的部署热潮,其核心贡献在于通过多粒度分类层级与多源数据模态的协同设计,填补了现有评估体系在跨场景泛化与层次化理解方面的关键空白。这一基准的提出不仅为多模态文档理解提供了标准化的竞技场,更推动了从粗粒度标签匹配向语义层次推理的技术演进,对提升自动化文档管理系统的鲁棒性与智能化水平具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作