tubitak-olimpiyat-dataset-v2

Hugging Face2026-03-12 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/alpsahin/tubitak-olimpiyat-dataset-v2

下载链接

链接失效反馈

官方服务：

资源简介：

TÜBİTAK Bilim Olimpiyatları Dataset v2 是一个多模态（文本+图像）结构化数据集，包含土耳其科学奥林匹克（TÜBİTAK）考试的题目和解答。数据集按学科分为多个子集，包括计算机科学、物理、数学等，每个子集作为一个独立的分割。数据集提供了丰富的字段信息，如学科、年份、阶段、题目编号、题目图像、解答图像、LaTeX格式的题目和解答文本、是否包含图形、是否选择题、选项值、正确答案字母和数值等。数据集的时间跨度为2002年至2025年，适用于教育、考试、问答系统等任务。数据集采用CC-BY-4.0许可协议。

创建时间：

2026-02-26

原始信息汇总

TÜBİTAK Bilim Olimpiyatları Dataset v2 数据集概述

数据集基本信息

数据集名称: TÜBİTAK Bilim Olimpiyatları Dataset v2
发布者: alpsahin
许可证: CC-BY-4.0
主要语言: 土耳其语 (tr)
创建日期: 2026-02-25 19:18

数据集描述

该数据集是土耳其科学奥林匹克（TÜBİTAK）考试题目和解答的多模态（文本 + 图像）结构化数据集。

数据集规模与结构

规模分类: 1K<n<10K
下载大小: 486,766,531 字节
数据集大小: 500,807,145.0 字节
数据格式: 按学科分为多个配置（split）

数据划分详情

划分名称	示例数量	字节大小
bilgisayar	841	155,942,038.0
fizik	320	103,148,617.0
matematik	675	129,115,922.0
ortaokul_bilgisayar	205	26,322,702.0
ortaokul_matematik	597	86,277,866.0

数据特征

数据集包含以下字段：

subject: 学科（字符串）
year: 年份（int32）
stage: 阶段（int32）
question_number: 问题编号（int32）
question_image: 问题完整图像（图像）
solution_image: 解答完整图像（图像）
question_latex: 问题文本（LaTeX/Markdown字符串）
solution_latex: 解答文本（LaTeX/Markdown字符串）
has_solution: 是否有解答（布尔）
has_figure: 问题中是否有图形（布尔）
has_choices: 是否为选择题（布尔）
choice_values: 选项值（字符串）
has_answer: 是否有答案（布尔）
answer_letter: 正确答案选项（字符串）
answer_value: 数值答案（字符串）

时间范围

2002年至2025年

学科标签

科学奥林匹克
土耳其语
TÜBİTAK
教育
考试
问答
数学
物理
化学
生物学
计算机科学
地理
天文学
多模态
图像文本

使用示例

python from datasets import load_dataset

加载所有数据

ds = load_dataset("alpsahin/tubitak-olimpiyat-dataset-v2", split="all")

加载数学数据

ds_math = load_dataset("alpsahin/tubitak-olimpiyat-dataset-v2", split="matematik")

加载物理数据

ds_phys = load_dataset("alpsahin/tubitak-olimpiyat-dataset-v2", split="fizik")

搜集汇总

数据集介绍

构建方式

在科学教育评估领域，TÜBİTAK Bilim Olimpiyatları Dataset v2 的构建体现了系统化数据采集与结构化处理的严谨性。该数据集源自土耳其科学与技术研究委员会（TÜBİTAK）举办的全国性科学奥林匹克竞赛，涵盖2002年至2025年间的历年试题。构建过程涉及对原始考试文档的数字化处理，包括试题与解答的扫描图像提取、LaTeX格式的文本转录以及元数据标注。数据按学科划分为独立的分割集，如数学、物理、计算机科学等，每个条目均包含图像、文本及结构化标签，确保了多模态数据的完整性与一致性。

特点

该数据集的核心特征在于其多模态结构与丰富的元数据设计。试题内容不仅以图像形式保留了原始版面，还提供了LaTeX格式的文本版本，便于机器解析与人工阅读。数据集涵盖了数学、物理、化学、生物学、计算机科学、地理学及天文学等多个学科，并区分中学与高中阶段，体现了学科广度与教育层次的多样性。每道题目均标注了年份、阶段、题型、答案选项及解答图像，部分条目包含内嵌图表，为教育技术研究提供了高维度的分析基础。

使用方法

在人工智能与教育技术研究中，该数据集适用于多模态学习、自动答题系统及学科知识建模等任务。用户可通过Hugging Face的datasets库直接加载，按学科分割集或整体数据集进行访问。例如，加载数学分集可专注于特定学科的模型训练，而整体数据集则支持跨学科分析。数据中的图像与文本字段支持视觉-语言联合建模，结构化标签如答案选项与解答文本可用于监督学习或评估任务，为研究者提供了灵活且标准化的实验平台。

背景与挑战

背景概述

在科学教育评估与人工智能交叉领域，土耳其科学技术研究理事会（TÜBİTAK）举办的全国科学奥林匹克竞赛积累了丰富的学术资源。tubitak-olimpiyat-dataset-v2数据集由研究人员alpsahin于2026年构建，系统整理了2002年至2025年间数学、物理、计算机科学等多学科竞赛题目及其解答。该数据集以多模态形式呈现，融合了图像与文本信息，旨在为教育技术、自动解题及跨学科知识推理研究提供结构化基准。其创建不仅推动了土耳其语科学教育资源的数字化进程，也为全球范围内基于复杂科学问题的自然语言处理模型开发奠定了重要基础。

当前挑战

该数据集致力于解决科学奥林匹克竞赛题目的自动理解与解答这一核心领域问题，其挑战在于题目往往涉及深层次学科知识、多步骤逻辑推理以及图文混合表达，要求模型具备跨模态信息融合与符号计算能力。在构建过程中，挑战主要源于原始资料的多格式整合，包括从扫描图像中精确提取文本与公式、将视觉图表与LaTeX标记对齐，以及确保不同学科领域（如数学、物理、计算机科学）问题表述的标准化。此外，数据集中部分题目解答的缺失或非结构化形式，也为构建完整可靠的监督学习样本带来了额外复杂性。

常用场景

经典使用场景

在科学教育领域，tubitak-olimpiyat-dataset-v2数据集为多模态学习模型提供了丰富的训练资源。该数据集整合了土耳其科学奥林匹克竞赛中的数学、物理、计算机科学等学科的试题与解答，涵盖图像与文本的双重模态。研究者通常利用其结构化的试题图像、LaTeX格式的题目文本以及详细的解答信息，来训练和评估视觉问答模型或自动解题系统，尤其在处理包含复杂公式和图表的科学问题方面展现出独特价值。

衍生相关工作

围绕该数据集，已衍生出一系列专注于科学教育领域的多模态人工智能研究。例如，基于其构建的视觉问答模型在土耳其语科学题目理解任务上取得了显著进展；同时，研究者利用该数据集开发了自动解题与评分系统，探索了跨学科知识推理的算法。这些工作不仅深化了多模态表示在专业领域的应用，也为后续面向其他语言或学科的教育数据集构建提供了可借鉴的范式。

数据集最近研究