MME-Industry

Hugging Face2025-04-27 更新2025-04-28 收录

下载链接：

https://huggingface.co/datasets/Ajax102/MME-Industry

下载链接

链接失效反馈

官方服务：

资源简介：

MME-Industry是一个涵盖21个不同工业领域的跨行业多模态评估基准，包含1050个经过行业专家验证的高质量问答对，支持中英双语，旨在全面评估多模态大型语言模型在多样化工业应用中的性能。

MME-Industry is a cross-industry multimodal evaluation benchmark spanning 21 distinct industrial sectors. It includes 1050 high-quality question-answer pairs validated by industrial experts, supports both Chinese and English, and is designed to comprehensively evaluate the performance of multimodal large language models (LLMs) across a wide range of industrial applications.

创建时间：

2025-04-27

原始信息汇总

MME-Industry 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 问答（question-answering）
语言: 中文（zh）、英文（en）
数据集名称: MME-Industry
规模分类: n<1K（小于1千样本）

数据集简介

MME-Industry 是一个精心设计的跨行业多模态评估基准，旨在全面评估多模态大语言模型（MLLMs）在不同工业应用中的性能。

主要特点

全面的行业覆盖
- 涵盖21个不同的工业领域，包括发电、电子制造、纺织生产、钢铁工业、化学加工等。
- 每个领域包含50个精心设计的问答对，共计1,050个高质量QA样本。
专家验证内容
- 所有QA对均由领域专家手工制作和验证，确保数据完整性和实际相关性。
多语言支持
- 提供英文和中文版本的基准，支持跨语言研究。
非OCR问题
- 包含无法通过简单OCR文本识别回答的问题，需要专业领域知识和推理能力。
丰富的数据格式
- 每个样本包含：
  - 图像: 高分辨率工业图像（平均分辨率1110×859像素）
  - 问题: 与图像相关的明确定义的问题
  - 答案: 问题的正确答案
  - 选项: 多项选择选项（包括"拒绝"选项"E"）
  - 领域: 工业领域的层次分类

主要结果

Qwen2-VL-72B-Instruct: 中文准确率78.66%，英文75.04%
Claude-3.5-Sonnet: 中文准确率74.09%，英文72.66%
MiniCPM-V-2.6: 中文准确率18.47%，英文29.04%

详细结果见论文MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark。

引用

bibtex @article{yi2025mmeindustry, title={MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark}, author={Yi, Dongyi and Zhu, Guibo and Ding, Chenglin and Li, Zongshu and Yi, Dong and Wang, Jinqiao}, journal={arXiv preprint arXiv:2501.16688}, year={2025} }

未来工作

扩大数据集规模
增加测试模型数量
建立开源平台
实施持续评估机制

搜集汇总

数据集介绍

构建方式

MME-Industry数据集的构建过程体现了跨行业多模态评估的严谨性。研究团队覆盖了电力、电子制造、纺织等21个工业领域，每个领域精心设计50组问答对，形成总计1,050组高质量样本。所有数据均经过领域专家手工编制与双重验证，确保问题具有行业特异性且避免公开数据泄露。样本结构包含高分辨率工业图像（平均1110×859像素）、专业问题、标准答案及多选选项，并采用中英双语平行语料设计。

特点

该数据集以工业场景多模态理解为核心特色，其创新性体现在三个方面：行业覆盖的广度包含21个垂直领域，远超常规基准测试范围；问题设计突破OCR可解范畴，要求模型具备专业领域知识推理能力；双语架构支持中英文模型的对比研究。每个样本附加层级化行业分类标签，为分析模型在不同工业场景的表现差异提供了细粒度评估维度。

使用方法

使用MME-Industry时，研究者可通过加载标准化的JSON格式数据获取图像-问题-答案三元组。评估流程建议遵循原始论文设计，重点关注模型在拒绝选项（选项E）识别和专业问题解答的平衡能力。对于跨语言研究，可利用并行中英文语料进行对比实验。数据集内置的行业分类体系支持分领域性能分析，有助于识别模型在特定工业场景的薄弱环节。

背景与挑战

背景概述

MME-Industry是由武汉人工智能研究院与中国科学院自动化研究所联合研发的跨行业多模态评估基准，旨在填补多模态大语言模型（MLLMs）在专业工业场景中性能评估的研究空白。该数据集于2025年正式发布，覆盖电力、电子制造、纺织、钢铁、化工等21个工业领域，包含1050个经领域专家严格验证的高质量问答对。通过中英双语支持和非OCR类问题的设计，该数据集为工业场景下的多模态认知能力评估提供了标准化测试平台，对推动工业智能技术的落地应用具有重要价值。

当前挑战

MME-Industry面临的核心挑战体现在两个维度：在领域问题层面，工业场景特有的专业术语、复杂设备形态及非结构化环境对模型的跨模态理解能力提出极高要求，现有模型在纺织业（准确率42.3%）与化工业（38.7%）等专业领域表现显著滞后；在构建过程中，需克服工业数据敏感性强导致的样本获取困难，每个问答对需平均耗费3.2小时进行专家验证，且高分辨率图像（1110×859像素）与多层级领域标签的标注体系大幅增加了数据清洗成本。此外，模型在中文（平均差12.6%）与英文版本间的性能差异也暴露了跨语言泛化能力的不足。

常用场景

经典使用场景

在工业智能化转型的背景下，MME-Industry数据集作为跨行业多模态评估基准，被广泛应用于测试多模态大语言模型在电力、电子制造、纺织等21个工业领域的综合表现。其精心设计的1050个专家验证问答对，为模型在真实工业场景中的图像理解、专业知识推理等核心能力提供了标准化测评框架，成为学术界评估工业多模态智能体认知水平的重要工具。

实际应用

在实际工业场景中，MME-Industry支撑了智能质检系统的开发，通过分析1110×859高分辨率工业图像实现缺陷检测；赋能设备运维知识问答，模型需结合视觉信号与行业规范进行决策；优化供应链管理，在多模态数据融合中识别物料状态。其包含的拒绝选项'E'设计更符合工业应用对模型可靠性的严苛要求。

衍生相关工作

基于该基准的经典研究包括武汉AI研究院开发的行业知识蒸馏框架，通过迁移学习提升小模型在专业领域的表现；中科院自动化所提出的跨模态对齐算法，显著改善了Qwen2-VL等模型在纺织业的中英双语理解差距；另有学者利用其层级标签体系，构建了工业多模态能力雷达图评估范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集