five

MME-Industry|多模态模型评估数据集|工业应用数据集

收藏
arXiv2025-01-28 更新2025-02-25 收录
多模态模型评估
工业应用
下载链接:
http://arxiv.org/abs/2501.16688v1
下载链接
链接失效反馈
资源简介:
MME-Industry是由武汉人工智能研究院和中国科学院自动化研究所联合创建的多模态评估基准数据集,旨在评估多模态大语言模型(MLLMs)在工业环境中的表现。该数据集包含1050个问题-答案对,覆盖21个不同的工业领域,如电力、电子、纺织、钢铁和化工等。每个领域包含50个问题,所有问题均由领域专家手动创建和验证,确保了数据的完整性和专业性。数据集还提供了中英文版本,支持跨语言研究。数据集的应用领域主要集中在工业场景中的复杂问题解决,旨在评估模型在专业知识和推理能力方面的表现。
提供机构:
武汉人工智能研究院, 中国科学院自动化研究所
创建时间:
2025-01-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
MME-Industry数据集的构建采用了严谨的四阶段流程。首先,领域专家从21个不同的工业领域收集了50个行业特定的图像,并为每个图像配对了一个问题以及四个多项选择题选项。接着,对所有图像进行了清晰度和相关性的验证,并检查了答案的可访问性和符合行业标准的情况。然后,专家评审过程消除了重复内容,解决了问题,并替换了有问题的内容,以保持行业相关性和专业质量。最后,所有内容,包括问题和选项,都被准确地翻译成英语,以增强国际研究人员的可访问性。
使用方法
MME-Industry数据集的使用方法包括:模型需要对每个图像进行识别,并为每个图像准备一个问题以及五个选项,其中只有一个正确答案,三个相似错误选项和一个选项“E”。如果模型无法识别图像特征或模型的api无法解码图像,则默认输出为“E”。此外,如果图像超过输入大小限制或模型认为输入不合法,默认输出也是“E”。除了这些问题需要一定的专业知识或相关数据存储才能解决外,所有问题都记录在注释中。问题的输入格式(英语版本,原始版本为中文)如下:[Image][Questions] 选项:(A)[Option A] (B)[Option B] (C)[Option C] (D)[Option D] (E) 图像中没有相应的特征。只需根据选项的字母回答问题,输出应为单个字母。
背景与挑战
背景概述
随着多模态大型语言模型(MLLMs)的快速发展,各种评估基准也应运而生。然而,对于这些模型在不同工业应用中的性能进行全面评估仍然有限。为了填补这一空白,研究人员 Dongyi Yi、Guibo Zhu 等人提出了 MME-Industry 数据集,旨在评估 MLLMs 在工业环境中的性能。该数据集涵盖了 21 个不同的领域,包含 1050 个问答对,每个领域 50 个问题。为了确保数据完整性和防止潜在的数据泄露,所有问答对均由领域专家手动制作和验证。此外,该基准的复杂性通过引入可以直接回答的非 OCR 问题以及需要专业领域知识的任务而得到有效提升。此外,我们还提供了基准的中文和英文版本,以便比较分析 MLLMs 在这些语言中的能力。我们的发现为 MLLMs 在实际工业应用中的实用性提供了宝贵的见解,并为未来模型优化研究指明了有希望的方向。
当前挑战
MME-Industry 数据集的创建旨在解决 MLLMs 在不同工业应用中的性能评估问题。然而,构建这样一个基准也带来了一些挑战。首先,数据集需要涵盖广泛的工业领域,并确保每个领域的问题和答案都具有专业性和实用性。其次,为了防止数据泄露,所有内容都需要由领域专家手动创建和验证,这需要大量的人力和时间。此外,由于工业领域的复杂性,数据集需要包含各种类型的任务,包括非 OCR 问题和需要特定领域知识的问题,这增加了数据集的构建难度。最后,为了支持跨语言研究,数据集需要提供中文和英文版本,这需要确保两种语言之间的准确性和一致性。
常用场景
经典使用场景
MME-Industry数据集专为评估多模态大型语言模型(MLLMs)在工业环境中的表现而设计。该数据集涵盖了21个不同领域,包含1050个问答对,每个领域50个问题。数据集的设计旨在通过去除依赖OCR的问题和包含需要特定领域知识的任务,提高评估的复杂性。此外,该数据集提供了中文和英文版本,便于跨语言比较MLLMs的能力。
解决学术问题
MME-Industry数据集解决了现有评估基准在工业应用场景中的评估不足的问题。它通过包含21个不同工业领域的1050个问答对,为MLLMs提供了一个全面的评估框架。该数据集通过手动制作和验证所有问答对,确保了数据完整性和可靠性,避免了公共数据集中可能存在的泄露问题。此外,该数据集还通过包含非OCR问题和需要特定领域知识的任务,增强了评估的复杂性。
实际应用
MME-Industry数据集在实际应用场景中可用于评估MLLMs在工业环境中的表现。该数据集涵盖了21个不同工业领域,包括电力、电子、纺织、钢铁和化工等。通过对MLLMs在各个领域的表现进行评估,可以帮助研究人员了解MLLMs在实际工业应用中的优势和局限性,并为未来的模型优化研究提供有价值的见解。
数据集最近研究
最新研究方向
MME-Industry数据集的最新研究方向在于评估多模态大语言模型(MLLMs)在工业环境下的性能。该数据集覆盖了21个不同的工业领域,包含了1050个问答对,每个领域有50个问题。为了确保数据的质量和防止公共数据集的潜在泄露,所有的问题和答案都是由领域专家手工制作和验证的。此外,数据集的复杂性通过包含可以直接回答的非OCR问题和需要专业领域知识的问题而得到有效提升。我们还提供了中文和英文两个版本的数据集,以便于比较分析MLLMs在不同语言环境下的能力。我们的发现为MLLMs在工业应用中的实际应用提供了宝贵的见解,并揭示了未来模型优化研究的潜在方向。
相关研究论文
  • 1
    MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark武汉人工智能研究院, 中国科学院自动化研究所 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

TaRF

TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录