CharmBench-Preview

github2025-05-28 更新2025-05-29 收录

下载链接：

https://github.com/Wu-Zongyu/CharmBench

下载链接

链接失效反馈

官方服务：

资源简介：

CharmBench-Preview是一个挑战性推理和多模态基准测试的预览版本，旨在评估大型视觉语言模型在复杂多模态推理任务中的性能。该基准测试提出了真正需要模型深入理解视觉和文本上下文信息的复杂问题，迫使它们从两种来源中仔细提取和结合细节。

CharmBench-Preview represents a preview version of a challenging inference and multimodal benchmark designed to evaluate the performance of large visual language models on complex multimodal reasoning tasks. This benchmark introduces genuinely complex questions that require models to deeply understand the visual and textual contextual information, compelling them to meticulously extract and combine details from both sources.

创建时间：

2025-05-28

原始信息汇总

CharmBench 数据集概述

基本信息

名称: CharmBench-Preview
类型: 多模态推理基准测试
年份: 2025
作者: Zongyu Wu, Minhua Lin, Jiaxuan Cai 等
机构: 宾夕法尼亚州立大学、俄亥俄州立大学、亚马逊
联系人: zongyuwu@psu.edu
引用: bibtex @misc{wu2025CharmBench, title = {CharmBench: A Challenging Reasoning and Multimodal Benchmark for Large Vision-Language Models}, author = {Zongyu Wu and Minhua Lin and Jiaxuan Cai and Shuhua Yang and Yilong Wang and Fali Wang and Zhiwei Zhang and Jiahao Zhang and Xianren Zhang and Chenglin Weng and Xianfeng Tang and Xiang Zhang and Hui Liu and Suhang Wang}, year = {2025} }

数据集简介

目的: 评估大型视觉语言模型（LVLMs）在复杂多模态推理任务中的表现。
特点:
- 包含需要深度理解视觉和文本上下文信息的复杂问题。
- 涵盖多种推理任务，如侦探推理、图像变化模式识别、基于图像和文本的解码等。
示例:
- 包含图像和文本组合的样例问题（示例见 Figure 1）。

数据集构建

数据来源:
- 33IQ
- tuilizui
数据清洗:
- 通过双重检查确保问题和答案的合理性。
- 最终包含 50 个高质量问题。

实验设置

评估模型:
- 开源模型: Qwen2.5-VL 72B, Llama 3.2-11B-vision
- 闭源模型: GPT-4o-mini, GPT-4.1-mini, OpenAI-o4-mini
评估方法:
- CoT 提示评估: 模型需提供逐步推理过程。
- 非 CoT 提示评估: 模型直接回答问题（格式为 ANSWER: <A/B/C/D>）。

主要结果

性能观察:
- 当代 LVLMs 在 CharmBench-Preview 上表现较差。
- 闭源模型优于开源模型。
- 多模态大型推理模型（MLRM）表现优于通用 LVLMs。
- CoT 提示对多数模型有积极影响，但对部分模型性能下降。
- 参数规模的影响需进一步研究。

使用说明

代码运行:
- CoT 实验: 设置 system_prompt 为 SYSTEM_PROMPT_CoT。
- 非 CoT 实验: 设置 system_prompt 为 SYSTEM_PROMPT_no_CoT。
模型部署:
- OpenAI 模型: 参考 run_models_all.ipynb 中的函数。
- 本地模型:
  - Qwen 模型: 使用 vllm 部署。
  - LLama 模型: 使用 HuggingFace 官方代码部署。

许可证

代码许可证: Apache-2.0
数据许可证:
- 大部分数据使用 CC BY-NC-SA 4.0。
- 部分数据版权归原作者所有。

致谢

使用了 vllm 和 HuggingFace 的工具和代码。

搜集汇总

数据集介绍

构建方式

CharmBench-Preview数据集的构建过程体现了严谨的学术态度。研究团队从33IQ和tuilizui两个专业的多模态推理问题平台采集原始素材，通过双人交叉验证机制对问题答案的合理性进行严格筛选，最终精选出50个具有挑战性的优质问题。这种构建方式既保证了数据来源的多样性，又通过人工校验确保了每个问题都符合逻辑严谨性标准，为评估大视觉语言模型的复杂推理能力奠定了坚实基础。

特点

该数据集的核心价值在于其独特的挑战性设计。不同于传统视觉推理基准，CharmBench-Preview包含侦探推理、图像模式识别、密码破译等复杂题型，要求模型必须深度融合视觉细节理解与文本背景分析能力，有时还需调用内部知识库进行综合判断。这种设计有效突破了现有模型在细粒度多模态推理方面的瓶颈，为评估模型的深层认知能力提供了精准测量工具。

使用方法

数据集支持两种典型的评估范式：思维链提示(CoT)和非思维链提示评估。研究人员可通过调整system_prompt参数灵活切换评估模式，使用正则表达式从模型输出中提取答案。对于开源模型如Qwen和LLama系列，提供了基于vllm的API部署方案；闭源模型则通过OpenAI标准接口调用。这种模块化设计使得基准测试既能适应不同架构模型的评估需求，又能保持实验结果的可比性。

背景与挑战

背景概述

CharmBench-Preview是由宾夕法尼亚州立大学、俄亥俄州立大学以及亚马逊的研究团队于2025年联合推出的多模态推理基准测试数据集，旨在评估大型视觉语言模型（LVLMs）在复杂多模态推理任务中的表现。该数据集由Zongyu Wu和Minhua Lin等学者主导开发，聚焦于模型对视觉和文本细节的深度理解与融合能力，填补了现有基准在复杂推理任务评估上的空白。其数据来源于33IQ和tuilizui等平台，经过严格筛选和人工校验，确保了问题的高质量和合理性。CharmBench-Preview的推出为多模态推理领域提供了重要的评估工具，推动了LVLMs在细粒度理解和跨模态推理方面的研究进展。

当前挑战

CharmBench-Preview面临的挑战主要体现在两个方面：领域问题层面，现有大型视觉语言模型在复杂多模态推理任务中表现欠佳，即使是性能最优的GPT-4.1-Mini模型，在使用思维链提示技术时的准确率也仅为0.56，反映出模型在细节提取、跨模态融合和深度推理方面的能力不足；数据构建层面，原始数据中存在大量牵强附会的问题，需要通过双重人工校验来确保问题与答案的逻辑合理性，这一过程耗时耗力且具有主观性。此外，模型输出格式的不规范性也为答案提取带来了额外挑战，需要设计复杂的正则表达式模式来适配多样化的响应风格。

常用场景

经典使用场景

在大型视觉语言模型（LVLMs）的研究领域，CharmBench-Preview数据集被广泛用于评估模型在复杂多模态推理任务中的表现。通过包含侦探推理、图像变化模式识别以及基于图像和文本的解码等多种问题类型，该数据集为研究者提供了一个全面测试模型深度理解视觉和文本上下文信息能力的平台。

衍生相关工作

CharmBench-Preview数据集已经衍生了一系列关于多模态推理和大型视觉语言模型优化的研究。例如，基于该数据集的实验结果，研究者提出了改进的CoT（Chain-of-Thought）提示技术，并在模型架构设计中引入了更精细的多模态融合机制，进一步推动了该领域的发展。

数据集最近研究