five

tubitak-olimpiyat-dataset-v2

收藏
Hugging Face2026-03-12 更新2026-03-13 收录
下载链接:
https://huggingface.co/datasets/alpsahin/tubitak-olimpiyat-dataset-v2
下载链接
链接失效反馈
官方服务:
资源简介:
TÜBİTAK Bilim Olimpiyatları Dataset v2 是一个多模态(文本+图像)结构化数据集,包含土耳其科学奥林匹克(TÜBİTAK)考试的题目和解答。数据集按学科分为多个子集,包括计算机科学、物理、数学等,每个子集作为一个独立的分割。数据集提供了丰富的字段信息,如学科、年份、阶段、题目编号、题目图像、解答图像、LaTeX格式的题目和解答文本、是否包含图形、是否选择题、选项值、正确答案字母和数值等。数据集的时间跨度为2002年至2025年,适用于教育、考试、问答系统等任务。数据集采用CC-BY-4.0许可协议。
创建时间:
2026-02-26
原始信息汇总

TÜBİTAK Bilim Olimpiyatları Dataset v2 数据集概述

数据集基本信息

  • 数据集名称: TÜBİTAK Bilim Olimpiyatları Dataset v2
  • 发布者: alpsahin
  • 许可证: CC-BY-4.0
  • 主要语言: 土耳其语 (tr)
  • 创建日期: 2026-02-25 19:18

数据集描述

该数据集是土耳其科学奥林匹克(TÜBİTAK)考试题目和解答的多模态(文本 + 图像)结构化数据集。

数据集规模与结构

  • 规模分类: 1K<n<10K
  • 下载大小: 486,766,531 字节
  • 数据集大小: 500,807,145.0 字节
  • 数据格式: 按学科分为多个配置(split)

数据划分详情

划分名称 示例数量 字节大小
bilgisayar 841 155,942,038.0
fizik 320 103,148,617.0
matematik 675 129,115,922.0
ortaokul_bilgisayar 205 26,322,702.0
ortaokul_matematik 597 86,277,866.0

数据特征

数据集包含以下字段:

  • subject: 学科(字符串)
  • year: 年份(int32)
  • stage: 阶段(int32)
  • question_number: 问题编号(int32)
  • question_image: 问题完整图像(图像)
  • solution_image: 解答完整图像(图像)
  • question_latex: 问题文本(LaTeX/Markdown字符串)
  • solution_latex: 解答文本(LaTeX/Markdown字符串)
  • has_solution: 是否有解答(布尔)
  • has_figure: 问题中是否有图形(布尔)
  • has_choices: 是否为选择题(布尔)
  • choice_values: 选项值(字符串)
  • has_answer: 是否有答案(布尔)
  • answer_letter: 正确答案选项(字符串)
  • answer_value: 数值答案(字符串)

时间范围

2002年至2025年

学科标签

  • 科学奥林匹克
  • 土耳其语
  • TÜBİTAK
  • 教育
  • 考试
  • 问答
  • 数学
  • 物理
  • 化学
  • 生物学
  • 计算机科学
  • 地理
  • 天文学
  • 多模态
  • 图像文本

使用示例

python from datasets import load_dataset

加载所有数据

ds = load_dataset("alpsahin/tubitak-olimpiyat-dataset-v2", split="all")

加载数学数据

ds_math = load_dataset("alpsahin/tubitak-olimpiyat-dataset-v2", split="matematik")

加载物理数据

ds_phys = load_dataset("alpsahin/tubitak-olimpiyat-dataset-v2", split="fizik")

搜集汇总
数据集介绍
main_image_url
构建方式
在科学教育评估领域,TÜBİTAK Bilim Olimpiyatları Dataset v2 的构建体现了系统化数据采集与结构化处理的严谨性。该数据集源自土耳其科学与技术研究委员会(TÜBİTAK)举办的全国性科学奥林匹克竞赛,涵盖2002年至2025年间的历年试题。构建过程涉及对原始考试文档的数字化处理,包括试题与解答的扫描图像提取、LaTeX格式的文本转录以及元数据标注。数据按学科划分为独立的分割集,如数学、物理、计算机科学等,每个条目均包含图像、文本及结构化标签,确保了多模态数据的完整性与一致性。
特点
该数据集的核心特征在于其多模态结构与丰富的元数据设计。试题内容不仅以图像形式保留了原始版面,还提供了LaTeX格式的文本版本,便于机器解析与人工阅读。数据集涵盖了数学、物理、化学、生物学、计算机科学、地理学及天文学等多个学科,并区分中学与高中阶段,体现了学科广度与教育层次的多样性。每道题目均标注了年份、阶段、题型、答案选项及解答图像,部分条目包含内嵌图表,为教育技术研究提供了高维度的分析基础。
使用方法
在人工智能与教育技术研究中,该数据集适用于多模态学习、自动答题系统及学科知识建模等任务。用户可通过Hugging Face的datasets库直接加载,按学科分割集或整体数据集进行访问。例如,加载数学分集可专注于特定学科的模型训练,而整体数据集则支持跨学科分析。数据中的图像与文本字段支持视觉-语言联合建模,结构化标签如答案选项与解答文本可用于监督学习或评估任务,为研究者提供了灵活且标准化的实验平台。
背景与挑战
背景概述
在科学教育评估与人工智能交叉领域,土耳其科学技术研究理事会(TÜBİTAK)举办的全国科学奥林匹克竞赛积累了丰富的学术资源。tubitak-olimpiyat-dataset-v2数据集由研究人员alpsahin于2026年构建,系统整理了2002年至2025年间数学、物理、计算机科学等多学科竞赛题目及其解答。该数据集以多模态形式呈现,融合了图像与文本信息,旨在为教育技术、自动解题及跨学科知识推理研究提供结构化基准。其创建不仅推动了土耳其语科学教育资源的数字化进程,也为全球范围内基于复杂科学问题的自然语言处理模型开发奠定了重要基础。
当前挑战
该数据集致力于解决科学奥林匹克竞赛题目的自动理解与解答这一核心领域问题,其挑战在于题目往往涉及深层次学科知识、多步骤逻辑推理以及图文混合表达,要求模型具备跨模态信息融合与符号计算能力。在构建过程中,挑战主要源于原始资料的多格式整合,包括从扫描图像中精确提取文本与公式、将视觉图表与LaTeX标记对齐,以及确保不同学科领域(如数学、物理、计算机科学)问题表述的标准化。此外,数据集中部分题目解答的缺失或非结构化形式,也为构建完整可靠的监督学习样本带来了额外复杂性。
常用场景
经典使用场景
在科学教育领域,tubitak-olimpiyat-dataset-v2数据集为多模态学习模型提供了丰富的训练资源。该数据集整合了土耳其科学奥林匹克竞赛中的数学、物理、计算机科学等学科的试题与解答,涵盖图像与文本的双重模态。研究者通常利用其结构化的试题图像、LaTeX格式的题目文本以及详细的解答信息,来训练和评估视觉问答模型或自动解题系统,尤其在处理包含复杂公式和图表的科学问题方面展现出独特价值。
衍生相关工作
围绕该数据集,已衍生出一系列专注于科学教育领域的多模态人工智能研究。例如,基于其构建的视觉问答模型在土耳其语科学题目理解任务上取得了显著进展;同时,研究者利用该数据集开发了自动解题与评分系统,探索了跨学科知识推理的算法。这些工作不仅深化了多模态表示在专业领域的应用,也为后续面向其他语言或学科的教育数据集构建提供了可借鉴的范式。
数据集最近研究
最新研究方向
在科学教育评估与人工智能交叉领域,TÜBİTAK奥林匹克数据集v2凭借其多模态结构,正成为推动教育技术前沿研究的关键资源。该数据集整合了数学、物理、计算机科学等多学科试题与解答,涵盖图像与LaTeX文本的丰富表征,为视觉问答模型在复杂科学问题理解上的性能优化提供了基准。当前研究聚焦于利用该数据集训练跨模态推理系统,以应对科学奥林匹克竞赛中涉及图表解析与符号运算的挑战,同时探索其在自适应学习系统中的潜在应用,旨在提升个性化教育工具的认知深度与学科覆盖广度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作