mmJEE-Eval

Hugging Face2025-11-13 更新2025-11-14 收录

下载链接：

https://huggingface.co/datasets/ArkaMukherjee/mmJEE-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

mmJEE-Eval是一个包含来自印度JEE Advanced竞争考试的1,460个挑战性问题的大型双语多模态评估数据集，涵盖2019至2025年的试题。该数据集用于评估视觉语言模型在科学推理方面的能力，并为模型提供了比文本单一的JEEBench数据集更具挑战性的测试环境。

创建时间：

2025-11-12

原始信息汇总

mmJEE-Eval数据集概述

基本信息

数据集名称: mmJEE-Eval
许可证: MIT
语言: 英语、印地语
任务类别: 图像文本到文本、问答
标签: 多模态、视觉语言模型、科学推理、基准测试、教育

数据集规模

下载大小: 97,675,003字节
数据集大小: 101,253,285.86字节
训练集样本数: 1,460个
训练集大小: 101,253,285.86字节

数据特征

问题ID: 字符串类型
图像: 图像类型
科目: 字符串类型
问题类型: 字符串类型
年份: 字符串类型
试卷: 字符串类型
语言: 字符串类型
答案: 字符串类型
答案来源: 字符串类型
需要图像: 布尔类型

数据集描述

mmJEE-Eval是一个多模态双语数据集，用于评估视觉语言模型。该数据集包含来自印度JEE Advanced竞争性考试七个年份（2019-2025年）的1,460个具有挑战性的问题。该基准测试比纯文本的JEEBench更具挑战性，能有效区分不同模型的能力。

使用方式

可通过Hugging Face的datasets库加载数据集： python from datasets import load_dataset dataset = load_dataset("ArkaMukherjee/mmJEE-Eval")

搜集汇总

数据集介绍

构建方式

在构建mmJEE-Eval数据集的过程中，研究团队系统性地采集了2019至2025年间印度联合入学考试（JEE Advanced）的原始试题，通过专业标注流程将文字与图像模态进行精确对齐。该数据集严格遵循考试题目的完整性原则，每道题目均包含问题标识、图像数据、学科分类、题型标注等结构化字段，并采用双语并行处理机制确保英语与印地语版本的语义一致性。构建过程中特别注重保留试题的数学公式、科学图表等视觉元素，最终形成包含1460个高质量样本的多模态语料库。

特点

作为专门针对视觉语言模型科学推理能力设计的评估基准，mmJEE-Eval最显著的特征在于其严格模拟真实学术评估场景的构架理念。数据集涵盖物理、化学、数学等多个自然科学学科，每道题目均标注详细的解题来源与图像依赖标识，其双语特性为研究跨语言推理一致性提供了独特视角。与现有文本基准相比，该数据集通过融入图表解析、空间推理等视觉认知任务，呈现出显著的难度提升，能有效区分不同规模模型的认知边界。

使用方法

研究者可通过Hugging Face平台直接加载该数据集进行模型评估，使用datasets库的标准化接口即可获取完整的训练分割数据。每个数据样本均以字典结构呈现，包含图像张量、问题文本、答案标签等关键字段。为保障评估严谨性，建议配合官方代码库提供的评估脚本进行标准化测试，该脚本能自动计算模型在双语环境下的准确率与自我修正能力指标。数据集支持端到端的多模态输入管道构建，便于研究者系统分析模型在复杂科学推理任务中的表现。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，视觉语言模型在科学推理任务中的表现日益受到关注。mmJEE-Eval数据集由研究团队于2025年构建，聚焦印度联合入学考试高级试题的跨模态解析，涵盖2019至2025年间七个年度的1460道双语试题。该数据集通过整合图像与文本模态，首次系统性地评估模型在物理、化学等学科中的科学推理能力，其严谨的学术设计为多模态推理研究提供了标准化评估框架。

当前挑战

该数据集致力于解决多模态科学问答领域的核心难题，即模型对复杂图表与专业文本的协同推理能力。构建过程中面临双重挑战：其一是试题涉及学科知识的深度与广度要求精确的语义对齐，其二是双语环境下视觉元素与文本描述的跨语言一致性维护。这些挑战直接反映了当前视觉语言模型在真实教育场景中存在的认知鸿沟。

常用场景

经典使用场景

在视觉语言模型评估领域，mmJEE-Eval数据集作为双语多模态基准，专门用于模拟印度JEE Advanced考试中的科学推理场景。该数据集通过整合图像与文本信息，系统评估模型在解决物理、化学等学科复杂问题时的多模态理解能力。其经典应用体现在对17种前沿视觉语言模型的横向比较中，揭示了模型在跨模态推理任务中的性能差异与局限性。

实际应用

在教育科技与智能评测领域，该数据集为自适应学习系统提供了核心验证工具。其双语特性支持印度与全球教育场景的跨文化适配，通过可视化题目与多步骤推理的有机结合，助力开发具备真实教学场景理解能力的智能辅导系统。这种以竞赛级试题为载体的评估范式，显著提升了教育人工智能系统的实用性与可靠性。

衍生相关工作

基于该基准衍生的经典研究包括多模态思维链增强技术、跨语言知识迁移框架等创新方向。众多研究团队通过对比该数据集与文本基准JEEBench的性能差异，提出了针对视觉符号理解的专用架构改进方案。这些工作共同推动了视觉语言模型在科学教育、专业认证等垂直领域的应用深化，形成了以考试驱动为导向的模型能力评估方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集