TUS21-exams

Hugging Face2025-11-24 更新2025-11-25 收录

下载链接：

https://huggingface.co/datasets/zypchn/TUS21-exams

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含土耳其医学专家考试2021年问题的数据集。数据集包括问题、选项、答案索引、答案文本和考试名称等信息。适合用于问题回答任务的训练。

创建时间：

2025-11-21

原始信息汇总

TUS21-exams 数据集概述

数据集基本信息

数据集名称: TUS21-exams
语言: 土耳其语 (tr)
任务类别: 问答 (question-answering)
标签: 医学、考试、文本
规模分类: n<1K (少于1000个样本)

数据结构

特征字段

question: 问题文本 (字符串类型)
choices: 选项列表 (字符串列表)
answer_idx: 答案索引 (字符串类型)
answer_text: 答案文本 (字符串类型)
exam_name: 考试名称 (字符串类型)

数据划分

训练集: 465个样本，197,848字节

数据规模

下载大小: 115,847字节
数据集大小: 197,848字节

数据来源

机构: Öğrenci Seçme ve Yerleştirme Merkezi (ÖSYM)
来源: Tıpta Uzmanlık Sınavı (TUS) 2021 Soruları
官方链接: https://www.osym.gov.tr/TR,15072/tus-cikmis-sorular.html

联系方式

数据集联系人: zeynepcahan8@gmail.com

搜集汇总

数据集介绍

构建方式

在医学教育评估领域，TUS21-exams数据集源自土耳其学生选拔与安置中心（ÖSYM）官方发布的2021年医学专科考试（TUS）真题。该数据集通过系统整理原始考试文档，提取了465道标准化试题，涵盖选择题形式，每道题目均包含问题陈述、多项选项、正确答案索引及文本解析，确保了数据来源的权威性与完整性。构建过程注重保留医学知识的专业表述，为后续研究提供了结构化的评估基础。

使用方法

对于医学问答系统开发，该数据集可直接用于训练或评估模型的多项选择问答能力。使用者可加载训练集后，以问题与选项作为输入，通过对比模型预测与答案索引或文本验证准确性。其结构化格式支持端到端流程，适用于微调预训练模型或分析医学语言模式，但需注意数据仅限土耳其语场景，且应遵循官方许可规范，确保在教育与研究应用中合规使用。

背景与挑战

背景概述

医学教育评估领域长期依赖标准化考试衡量专业能力，TUS21-exams数据集由土耳其学生选拔与安置中心于2021年创建，收录了该国医学专家资格考试的真实题目。该资源聚焦医学知识体系的多维度考察，通过结构化试题反映临床推理与理论掌握水平，为医学自然语言处理研究提供了本土化语料支撑，显著推动了土耳其语医疗问答系统的基准建设。

当前挑战

医疗专业考试题目常涉及跨学科知识融合与临床情境复杂性，构建高精度自动答题系统需克服医学术语歧义消除和逻辑推理链建模等核心难题。在数据集构建过程中，面临试题版权协议获取、非标准选项格式统一、以及土耳其语医学实体标注规范缺失等实操障碍，这些因素共同制约了数据规模扩展与模型泛化能力提升。

常用场景

经典使用场景

在医学教育领域，TUS21-exams数据集作为土耳其医学专业考试的标准化资源，常被用于评估和训练医学知识问答系统。该数据集通过提供结构化的问题、选项和答案，支持模型在医学诊断、病理学及治疗原则等主题上的理解与推理能力测试，为医学人工智能研究奠定了坚实基础。

解决学术问题

该数据集有效解决了医学自然语言处理中专业领域知识匮乏的挑战，助力研究者开发更精准的自动问答模型。通过模拟真实考试环境，它促进了医学文本理解、多选项推理和知识检索等核心问题的探索，显著提升了模型在复杂医学语境下的泛化性能，对推动智能医疗教育工具的发展具有深远意义。

实际应用

在实际应用中，TUS21-exams数据集被集成到医学培训平台和智能辅导系统中，辅助医学生进行自主学习和模拟测试。其高质量的问题设计能够模拟专业认证考试，帮助用户巩固关键医学概念，同时为开发临床决策支持工具提供可靠的数据基础，增强医疗教育的效率与可及性。

数据集最近研究