pcmb-ots-dataset

Hugging Face2025-08-29 更新2025-08-30 收录

下载链接：

https://huggingface.co/datasets/Kratos-AI/pcmb-ots-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

JEE Preparation OTS数据集是一个包含40万个问答对的高质量数据集，主要面向印度工程类竞争考试的话题。它涵盖了物理、化学、数学和生物学等领域，包含文本和基于图像的内容。

创建时间：

2025-08-28

原始信息汇总

PCMB OTS 数据集概述

数据集基本信息

数据集名称：JEE Preparation OTS Dataset
许可证：CC BY 4.0
主要语言：英语 (en)
标签：教育、问答、多模态、JEE 备考、物理、化学、数学、生物
任务类别：问答

数据集规模与结构

总样本量：400,000 个问答对
数据分割：训练集 (train) 包含 400,000 个样本
下载大小：0
数据集大小：400,000

数据特征

每个数据实例包含以下字段：

question_id：字符串类型，问题标识符
subject：字符串类型，所属学科
question_text：字符串类型，问题文本
question_image：图像类型，问题相关图像
answer_text：字符串类型，答案文本
answer_image：图像类型，答案相关图像

数据内容与分布

学科分布：均匀分布在物理、化学、数学和生物四个学科
内容类型：包含文本和图像内容（如图表、图形）

数据集用途

支持任务：问答任务
具体应用：
- 预训练和后训练
- 多模态学习（文本 + 图像）
- 教育工具开发

数据集创建

数据来源：学科专家贡献
标注过程：由专家手动整理和验证
质量控制：经过事实正确性、语法、重复性和抄袭验证

使用说明

参考附带的 Excel 文件
通过检查 Excel 表中的 question_image 和 answer_image 列来获取特定问答对的正确图像 ID

联系方式

如有疑问，请联系：arunabh@kgen.io

搜集汇总

数据集介绍

构建方式

在工程教育评估领域，pcmb-ots-dataset的构建体现了严谨的学术规范。该数据集由学科专家团队手工策划与验证，涵盖物理学、化学、数学及生物学四大核心学科。每个问题-答案对均经过事实正确性、语法规范性、内容重复率及学术抄袭的多维度质量把控，确保数据的权威性与可靠性。数据来源基于印度工程类竞争性考试的真实内容，采用人工标注与专业校验相结合的方式，最终形成40万个高质量的多模态样本。

特点

作为面向多模态学习任务的教育数据集，pcmb-ots-dataset融合文本与图像双重信息维度。其问题与答案既可呈现为纯文本形式，亦可附载示意图、曲线图等视觉材料，极大丰富了模型训练的信息载体。数据集内容均匀分布于物理、化学、数学与生物四大学科，且全部以英文呈现，兼具学科平衡性与语言一致性。规模达40万样本的容量，为教育人工智能系统提供了充足的训练与验证资源。

使用方法

使用者可通过附带的Excel文件索引具体样本，其中question_image与answer_image字段分别标识问题与答案对应的图像编号。该数据集支持问答生成、多模态预训练及后训练等多种任务，尤其适用于工程教育辅助工具的研发。用户可依据图像ID调用视觉数据，结合文本信息构建端到端的跨模态学习流程，从而提升模型在复杂学科语境下的推理与应答能力。

背景与挑战

背景概述

PCMB-OTS数据集由KGen机构于近年开发，专为印度工程入学考试（JEE）设计，涵盖物理、化学、数学和生物四大学科。该数据集包含40万个高质量多模态问答对，由领域专家手动标注与验证，旨在支持教育人工智能的发展，提升竞争性考试备考工具的精准性与多样性。其推出丰富了教育数据资源的跨学科融合，为多模态学习模型提供了关键基准，推动了智能教育系统的创新与应用。

当前挑战

该数据集核心挑战在于解决多模态教育问答中的复杂语义理解，需同时处理文本与图像信息（如公式、图表），并确保学科知识的精确性与一致性。构建过程中，专家团队面临大规模数据标注的质量控制难题，包括避免事实错误、语法问题及内容重复，同时需维护多学科平衡分布与跨模态对齐，这些因素显著增加了数据集的复杂度与可靠性要求。

常用场景

经典使用场景

在工程教育评估领域，该数据集为多模态学习提供了重要支撑。其经典使用场景集中于开发能够同时处理文本和图像信息的智能问答系统，这些系统需解析包含数学公式、化学结构图或物理示意图的复合型题目，模拟真实考试环境中的多模态信息处理需求。

衍生相关工作

基于该数据集衍生的经典工作包括多模态神经语义解析框架和视觉问答增强模型。研究者开发了专门处理科学图表与数学符号的跨模态注意力机制，并构建了针对工程教育领域的预训练语言模型，这些成果显著提升了机器对STEM学科复杂问题的理解和推理能力。

数据集最近研究