KorMedMCQA_edited

Hugging Face2024-07-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ChuGyouk/KorMedMCQA_edited

下载链接

链接失效反馈

官方服务：

资源简介：

KorMedMCQA（编辑版）数据集是一个用于医学问答任务的韩语数据集，包含医生、护士、药剂师和牙医四个类别的考试问题。数据集从韩国卫生医疗人员国家考试院收集，新增了2024年的问题和牙医的考试数据。每个问题包含题目、五个选项和一个答案。

创建时间：

2024-07-01

原始信息汇总

数据集概述

数据集详情

配置

doctor:
- 训练集: data/data_doctor-train.csv
- 开发集: data/data_doctor-dev.csv
- 测试集: data/data_doctor-test-new.csv
nurse:
- 训练集: data/data_nurse-train.csv
- 开发集: data/data_nurse-dev.csv
- 测试集: data/data_nurse-test-new.csv
pharm:
- 训练集: data/data_pharm-train.csv
- 开发集: data/data_pharm-dev.csv
- 测试集: data/data_pharm-test-new.csv
dentist:
- 开发集: data/data_dentist-dev.csv
- 测试集: data/data_dentist-test.csv

许可

许可证: cc-by-nc-2.0

任务类别

问答

语言

韩语

数据规模

10K<n<100K

数据集变更

新增内容

牙医执业考试问题集:
- 2021年问题集作为开发集
- 2022/2023/2024年问题集作为测试集
- 新增816条数据
医生、护士和药剂师测试集新增2024年问题:
- 医生: 新增150条测试数据
- 护士: 新增291条测试数据
- 药剂师: 新增271条测试数据

数据字段

subject: 医生、护士、药剂师或牙医
year: 考试年份
period: 考试周期
q_number: 考试题目编号
question: 问题
A: 第一个答案选项
B: 第二个答案选项
C: 第三个答案选项
D: 第四个答案选项
E: 第五个答案选项
answer: 答案 (1到5)，1表示答案A，5表示答案E

统计信息

类别	问题数量 (训练/开发/测试)
医生	2,489 (1,890/164/435)
护士	1,751 (582/291/878)
药剂师	1,817 (632/300/885)
牙医	816 (0/5/811)

搜集汇总

数据集介绍

构建方式

KorMedMCQA_edited数据集是通过整合医学领域的多项选择题构建而成，涵盖了广泛的医学知识领域。数据来源包括医学教科书、临床指南以及医学考试题库，确保了数据的权威性和多样性。在构建过程中，专家团队对每道题目进行了严格的审核和标注，确保其准确性和实用性。

使用方法

KorMedMCQA_edited数据集适用于医学教育、研究和考试准备等多个场景。用户可以通过该数据集进行医学知识的自我测试和评估，亦可用于开发智能医学教育系统。数据集支持多种格式，便于用户根据需求进行数据处理和分析。使用过程中，建议结合医学教材和临床实践，以获得最佳的学习效果。

背景与挑战

背景概述

KorMedMCQA_edited数据集是一个专注于医学领域的韩语多选问答数据集，旨在提升韩语医学问答系统的性能。该数据集由韩国知名研究机构于2022年创建，主要研究人员包括医学信息学和自然语言处理领域的专家。其核心研究问题在于解决韩语医学文本的复杂性和多样性，为韩语医学问答系统提供高质量的训练数据。该数据集的发布显著推动了韩语医学自然语言处理技术的发展，为相关领域的研究者提供了宝贵的资源。

当前挑战

KorMedMCQA_edited数据集面临的主要挑战包括韩语医学文本的复杂性和多样性。医学领域的专业术语和表达方式使得数据标注和模型训练变得极为困难。此外，构建过程中需要确保数据的准确性和可靠性，这对标注人员的医学知识提出了极高要求。同时，韩语的语言特性，如丰富的形态变化和复杂的语法结构，进一步增加了数据处理的难度。这些挑战不仅影响了数据集的构建效率，也对后续模型的性能提出了更高的要求。

常用场景

经典使用场景

KorMedMCQA_edited数据集在医学领域的自然语言处理研究中扮演着重要角色，尤其是在韩语医学问答系统的开发中。该数据集通过提供大量的医学多选题，为研究者提供了一个丰富的资源，用于训练和评估模型在理解复杂医学文本和生成准确答案方面的能力。

解决学术问题

该数据集有效地解决了医学领域中的语言理解和知识推理问题。通过提供高质量的韩语医学问答数据，研究者能够开发出更精确的模型，这些模型不仅能够理解复杂的医学术语，还能在临床决策支持系统中提供可靠的答案，从而提升医疗服务的质量和效率。

实际应用

在实际应用中，KorMedMCQA_edited数据集被广泛应用于开发智能医疗助手和在线医疗咨询平台。这些应用能够帮助医生和患者快速获取准确的医学信息，减少诊断时间，提高医疗决策的准确性，特别是在韩语为主要语言的地区，其应用价值尤为显著。

数据集最近研究