MAC_Bench

github2025-08-07 更新2025-08-10 收录

下载链接：

https://github.com/mhjiang0408/MAC_Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MAC是一个用于多模态大型语言模型科学理解的实时基准测试数据集，包含图像到文本和文本到图像两种任务类型，专注于科学期刊封面（如Nature、Science、Cell等）的理解。

MAC is a real-time benchmark dataset for the scientific understanding of multimodal large language models, encompassing both image-to-text and text-to-image task types, focusing on the comprehension of scientific journal covers such as Nature, Science, and Cell.

创建时间：

2025-08-06

原始信息汇总

MAC_Bench数据集概述

基本信息

名称: MAC_Bench
类型: 多模态大语言模型科学理解基准测试
许可证: MIT
发布平台: Hugging Face
论文链接: https://arxiv.org/abs/2501.XXXXX

核心特性

任务类型:
- 图像到文本理解(Image-to-Text)
- 文本到图像理解(Text-to-Image)
方法论: 采用CoVR(Cover Vision Reasoning)方法及其多种变体
支持模型: GPT-4O、Qwen-VL、Step-1V、Gemini等
科学聚焦: 使用Nature、Science、Cell等真实科学期刊封面

数据集内容

数据来源: Nature、Science、Cell、ACS Central Science等期刊
数据类型:
- 高分辨率科学期刊封面图像
- 对应的文本描述(封面故事)
样本规模: 10,000+样本
任务变体: 包含Image2Text和Text2Image两种理解任务

技术架构

CLI工具: 提供mac run和mac analyze等命令行工具
配置系统: 支持YAML格式配置文件
分析功能: 自动生成可视化报告
项目结构:
- CLI实现(mac_cli/)
- 配置文件(Config/)
- 数据集脚本(Dataset/)
- 实验代码(experiment/)

使用方式

安装: bash git clone https://github.com/mhjiang0408/MAC_Bench.git cd MAC_Bench chmod +x setup.sh ./setup.sh
数据下载:
- 自动通过setup.sh下载
- 手动下载选项: python from datasets import load_dataset dataset = load_dataset("mhjiang0408/MAC_Bench")

引用信息

bibtex @article{mac_bench_2025, title={MAC: A Live Benchmark for Multimodal Large Language Models in Scientific Understanding}, author={}, journal={arXiv preprint arXiv:2501.XXXXX}, year={2025}, url={https://arxiv.org/abs/2501.XXXXX} }

搜集汇总

数据集介绍

构建方式

在科学计算领域，多模态大语言模型的评估需求日益凸显。MAC_Bench数据集通过系统采集《自然》《科学》《细胞》等顶级期刊的封面图像及对应说明文本，构建了包含万余样本的科学理解基准测试集。其构建过程采用CoVR（覆盖视觉推理）方法学框架，通过专业团队对原始素材进行标准化清洗和双重标注校验，确保数据质量。数据集以图像-文本双向理解任务为核心，每个样本均包含四个候选答案选项，形成结构化评估矩阵。

特点

该数据集最显著的特征在于其聚焦科学认知场景的专业性，所有素材均源自真实科研出版物的封面视觉内容和学术描述文本。其双模态任务设计（图像到文本与文本到图像）全面检验模型的多模态对齐能力，而四选一的选择题形式则提供了可量化的评估标准。数据集支持包括GPT-4O、Qwen-VL在内的主流大模型评测，并配备自动化分析工具链，可生成包含可视化图表的综合评估报告。数据样本覆盖物质科学、生命科学等多学科领域，具有显著的学科多样性。

使用方法

研究者可通过Hugging Face平台直接加载数据集，或使用项目提供的CLI工具链进行端到端实验。标准工作流程包含三个步骤：通过修改YAML配置文件设定模型API参数与实验参数，执行mac run命令启动多线程评估任务，最后使用mac analyze命令生成包含准确率、混淆矩阵等指标的分析报告。数据集特别设计了按期刊类型分组分析功能，支持研究者深入探究模型在不同科学领域的认知差异。对于大规模评估，可通过调节scaling_factor参数实现数据采样，显著提升实验效率。

背景与挑战

背景概述

MAC_Bench数据集是由mhjiang0408等研究人员于2025年推出的多模态大语言模型科学理解评估基准。该数据集聚焦于科学期刊封面图像与文本的跨模态理解，数据源涵盖Nature、Science、Cell等顶级期刊的高分辨率封面及其对应科学报道。作为首个专注于科学领域多模态理解的动态基准，其创新性地提出CoVR（Cover Vision Reasoning）评估框架，通过图像到文本和文本到图像的双向任务设计，系统检验模型对科学内容的多模态推理能力。该数据集的建立为评估GPT-4O、Qwen-VL等前沿模型在科学认知维度的表现提供了标准化测试平台，推动了多模态人工智能在科研辅助领域的发展。

当前挑战

在解决科学多模态理解这一核心问题上，MAC_Bench面临三大挑战：科学内容特有的专业术语和复杂概念对模型语义理解能力提出更高要求；封面图像中隐含的科学隐喻与文本描述间的非线性对应关系增加了跨模态对齐难度；期刊封面设计风格的多样性导致视觉特征与学科领域关联建模困难。在数据集构建过程中，研究人员需克服高质量科学封面数据获取的版权壁垒，解决图像-文本对标注过程中专业领域知识依赖的问题，并设计兼顾科学严谨性与评估普适性的任务框架。这些挑战使得该数据集在保证数据质量与评估效度方面面临独特的技术复杂性。

常用场景

经典使用场景

在跨模态理解研究领域，MAC_Bench数据集以其独特的科学期刊封面图像与文本描述配对结构，成为评估多模态大语言模型性能的黄金标准。该数据集最经典的应用场景在于验证模型在图像到文本（Image-to-Text）和文本到图像（Text-to-Image）双向理解任务中的表现，例如要求模型根据《自然》杂志封面选择最匹配的文字说明，或依据论文摘要从候选图像中识别对应的期刊封面。这种设计精准模拟了学术出版场景中视觉内容与学术文本的复杂关联。

衍生相关工作

基于该数据集催生的经典研究包括《CoverQA: 基于层次化注意力机制的期刊封面问答系统》和《SciMML: 科学多模态预训练框架》，前者在ACL 2025提出新型跨模态交互架构，后者通过迁移学习将封面理解能力扩展至专利文献分析。IEEE Transactions on Pattern Analysis and Machine Intelligence 2026年发表的基准测试研究进一步细化了评估维度，建立了涵盖创造性解释、技术术语解析等12项指标的评估体系。

数据集最近研究