jee-neet-benchmark

Hugging Face2025-05-09 更新2025-05-10 收录

下载链接：

https://huggingface.co/datasets/Reja1/jee-neet-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

JEE/NEET LLM Benchmark是一个评估大型语言模型在处理印度联合入学考试(JEE)和国家入学资格及入学考试(NEET)问题上的能力的基准数据集。问题以图像形式呈现，并包含与考试细节、科目、问题类型和正确答案相关的元数据。

创建时间：

2025-05-04

搜集汇总

数据集介绍

构建方式

该数据集通过系统化采集印度国家级竞争性考试的官方试题构建而成，涵盖JEE与NEET两大核心考试体系。试题以原始试卷的扫描图像形式保存，确保图表与公式的完整性，同时采用人工标注方式为每道题目添加元数据，包括考试年份、科目分类、题型标识及标准答案。构建过程严格遵循考试机构的命题规范，保证了数据来源的权威性与标注准确性。

特点

本数据集以图像模态呈现试题，要求模型具备跨模态推理能力，精准解析包含复杂科学符号的视觉信息。其特色在于还原了真实考试场景的评分机制，针对不同题型设计差异化计分规则，例如JEE高级考试的多选题部分评分系统。数据集覆盖物理、化学、生物与数学四大学科领域，包含单选、多选与数值型三类题型，形成多维度的评估体系。

使用方法

使用者可通过HuggingFace数据集库直接加载测试集，利用标准接口获取图像与元数据对。配套的评估框架支持灵活配置多模态大模型，通过YAML文件定义API参数与评分标准。系统提供按考试类型、年份及题目编号的筛选功能，并内置自动重试机制应对网络异常。评估结果将生成结构化JSON文件与可视化报告，完整呈现模型在各学科领域的表现差异。

背景与挑战

背景概述

印度工程与医学入学考试基准数据集由研究人员Md Rejaullah于2025年构建，聚焦于评估大型语言模型在复杂学科问题上的多模态推理能力。该数据集整合了印度联合入学考试和国家级医学资格考试的原始试题图像，涵盖物理、化学、生物与数学等核心学科，旨在为教育人工智能领域提供标准化的评估工具。其创新性地采用图像形式保留试题的完整视觉信息，包括公式图表与实验示意图，为研究跨模态理解机制提供了重要数据支撑。

当前挑战

该数据集需解决多模态视觉问答的领域挑战，包括对含数学公式与科学图表的图像理解、复合型选择题的精确推理以及不同评分规则的适应性建模。在构建过程中面临试题图像的质量控制难题，需确保公式符号与图表细节的清晰可辨；同时需处理异构数据标注的复杂性，如多正确答案的标记规范、部分得分机制的数学建模，以及跨年度试题的标准化对齐。

常用场景

经典使用场景

在人工智能教育评估领域，该数据集作为标准化测试平台，专门用于衡量多模态大语言模型在解决印度工程与医学入学考试题目时的综合能力。通过呈现包含复杂图表和公式的原版试题图像，系统评估模型在物理、化学、生物及数学等学科中的视觉推理与逻辑分析能力，其严谨的评分机制可精准反映模型对不同题型（如单项选择、多项选择及数值题型）的适应程度。

实际应用

该数据集在智能教育系统开发中具有重要实践价值。教育科技企业可依据其评估结果优化自适应学习系统的题目解析模块，考试培训机构能借助基准测试筛选适合的教学辅助模型。同时，该数据集为教育监管部门提供了评估AI系统考试适应性的参考标准，推动人工智能技术与教育评估体系的深度融合。

衍生相关工作

基于该数据集衍生的研究已形成系列创新成果。多个团队利用其多模态特性开发了新型视觉语言模型微调方法，另有研究通过分析模型错误模式提出了针对科学图表理解的专用架构。该基准还催生了跨语言教育评估的扩展研究，促进了国际间教育人工智能标准的对话与协作。

以上内容由遇见数据集搜集并总结生成