MME-Industry

Name: MME-Industry
Creator: 武汉人工智能研究院, 中国科学院自动化研究所
Published: 2025-01-28 11:56:17
License: 暂无描述

arXiv2025-01-28 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.16688v1

下载链接

链接失效反馈

官方服务：

资源简介：

MME-Industry是由武汉人工智能研究院和中国科学院自动化研究所联合创建的多模态评估基准数据集，旨在评估多模态大语言模型（MLLMs）在工业环境中的表现。该数据集包含1050个问题-答案对，覆盖21个不同的工业领域，如电力、电子、纺织、钢铁和化工等。每个领域包含50个问题，所有问题均由领域专家手动创建和验证，确保了数据的完整性和专业性。数据集还提供了中英文版本，支持跨语言研究。数据集的应用领域主要集中在工业场景中的复杂问题解决，旨在评估模型在专业知识和推理能力方面的表现。

MME-Industry is a multimodal evaluation benchmark dataset jointly created by Wuhan AI Institute and the Institute of Automation, Chinese Academy of Sciences, aiming to evaluate the performance of multimodal large language models (MLLMs) in industrial environments. This dataset contains 1050 question-answer pairs, covering 21 distinct industrial sectors such as electric power, electronics, textile, iron and steel, chemical industry, etc. Each sector includes 50 questions, and all questions are manually created and verified by domain experts, ensuring the data's integrity and professionalism. The dataset also provides both Chinese and English versions, supporting cross-lingual research. Its application scenarios mainly focus on complex problem-solving in industrial settings, with the goal of evaluating the model's performance in terms of professional knowledge and reasoning abilities.

提供机构：

武汉人工智能研究院, 中国科学院自动化研究所

创建时间：

2025-01-28

搜集汇总

数据集介绍

构建方式

MME-Industry数据集的构建采用了严谨的四阶段流程。首先，领域专家从21个不同的工业领域收集了50个行业特定的图像，并为每个图像配对了一个问题以及四个多项选择题选项。接着，对所有图像进行了清晰度和相关性的验证，并检查了答案的可访问性和符合行业标准的情况。然后，专家评审过程消除了重复内容，解决了问题，并替换了有问题的内容，以保持行业相关性和专业质量。最后，所有内容，包括问题和选项，都被准确地翻译成英语，以增强国际研究人员的可访问性。

使用方法

MME-Industry数据集的使用方法包括：模型需要对每个图像进行识别，并为每个图像准备一个问题以及五个选项，其中只有一个正确答案，三个相似错误选项和一个选项“E”。如果模型无法识别图像特征或模型的api无法解码图像，则默认输出为“E”。此外，如果图像超过输入大小限制或模型认为输入不合法，默认输出也是“E”。除了这些问题需要一定的专业知识或相关数据存储才能解决外，所有问题都记录在注释中。问题的输入格式（英语版本，原始版本为中文）如下：[Image][Questions] 选项：(A)[Option A] (B)[Option B] (C)[Option C] (D)[Option D] (E) 图像中没有相应的特征。只需根据选项的字母回答问题，输出应为单个字母。

背景与挑战

背景概述

随着多模态大型语言模型（MLLMs）的快速发展，各种评估基准也应运而生。然而，对于这些模型在不同工业应用中的性能进行全面评估仍然有限。为了填补这一空白，研究人员 Dongyi Yi、Guibo Zhu 等人提出了 MME-Industry 数据集，旨在评估 MLLMs 在工业环境中的性能。该数据集涵盖了 21 个不同的领域，包含 1050 个问答对，每个领域 50 个问题。为了确保数据完整性和防止潜在的数据泄露，所有问答对均由领域专家手动制作和验证。此外，该基准的复杂性通过引入可以直接回答的非 OCR 问题以及需要专业领域知识的任务而得到有效提升。此外，我们还提供了基准的中文和英文版本，以便比较分析 MLLMs 在这些语言中的能力。我们的发现为 MLLMs 在实际工业应用中的实用性提供了宝贵的见解，并为未来模型优化研究指明了有希望的方向。

当前挑战

MME-Industry 数据集的创建旨在解决 MLLMs 在不同工业应用中的性能评估问题。然而，构建这样一个基准也带来了一些挑战。首先，数据集需要涵盖广泛的工业领域，并确保每个领域的问题和答案都具有专业性和实用性。其次，为了防止数据泄露，所有内容都需要由领域专家手动创建和验证，这需要大量的人力和时间。此外，由于工业领域的复杂性，数据集需要包含各种类型的任务，包括非 OCR 问题和需要特定领域知识的问题，这增加了数据集的构建难度。最后，为了支持跨语言研究，数据集需要提供中文和英文版本，这需要确保两种语言之间的准确性和一致性。

常用场景

经典使用场景

MME-Industry数据集专为评估多模态大型语言模型（MLLMs）在工业环境中的表现而设计。该数据集涵盖了21个不同领域，包含1050个问答对，每个领域50个问题。数据集的设计旨在通过去除依赖OCR的问题和包含需要特定领域知识的任务，提高评估的复杂性。此外，该数据集提供了中文和英文版本，便于跨语言比较MLLMs的能力。

解决学术问题

MME-Industry数据集解决了现有评估基准在工业应用场景中的评估不足的问题。它通过包含21个不同工业领域的1050个问答对，为MLLMs提供了一个全面的评估框架。该数据集通过手动制作和验证所有问答对，确保了数据完整性和可靠性，避免了公共数据集中可能存在的泄露问题。此外，该数据集还通过包含非OCR问题和需要特定领域知识的任务，增强了评估的复杂性。

实际应用

MME-Industry数据集在实际应用场景中可用于评估MLLMs在工业环境中的表现。该数据集涵盖了21个不同工业领域，包括电力、电子、纺织、钢铁和化工等。通过对MLLMs在各个领域的表现进行评估，可以帮助研究人员了解MLLMs在实际工业应用中的优势和局限性，并为未来的模型优化研究提供有价值的见解。

数据集最近研究