KorMedConceptsQA

Hugging Face2024-08-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ChuGyouk/KorMedConceptsQA

下载链接

链接失效反馈

官方服务：

资源简介：

KoMedConceptsQA数据集是基于韩国医学代码复现论文MedConceptsQA的工作。数据集包含不同难度级别的医学代码问题，使用KCD-8和ATC代码。KCD-8数据来自韩国标准疾病和病因分类，ATC数据来自原始的MedConceptsQA数据集。数据集分为easy、medium、hard和merged四个难度级别，每个级别的问题数量不同。数据集的语言为韩语，属于医疗领域，大小在10K到100K之间。

创建时间：

2024-08-16

原始信息汇总

KoMedConceptsQA 数据集概述

数据集配置

kcd8_easy:
- 数据文件: data/KCD8-easy-2.jsonl
- 分割: test
kcd8_medium:
- 数据文件: data/KCD8-medium-2.jsonl
- 分割: test
kcd8_hard:
- 数据文件: data/KCD8-hard-2.jsonl
- 分割: test
kcd8_merged:
- 数据文件: data/KCD8-merged.jsonl
- 分割: test
atc_easy:
- 数据文件:
  - data/atc_easy_dev.jsonl (分割: dev)
  - data/atc_easy_test.jsonl (分割: test)
atc_medium:
- 数据文件:
  - data/atc_medium_dev.jsonl (分割: dev)
  - data/atc_medium_test.jsonl (分割: test)
atc_hard:
- 数据文件:
  - data/atc_hard_dev.jsonl (分割: dev)
  - data/atc_hard_test.jsonl (分割: test)

许可证

cc-by-nc-nd-3.0

任务类别

question-answering

语言

ko (韩语)

数据集大小

10K<n<100K

数据来源

제8차 한국표준질병·사인분류 (KCD-8)
- 来源: 통계분류포털
- 注意: 该数据由“통계청”于2020年编写，以公共领域3类型开放。
ATC
- 来源: MedConceptsQA
- 注意: 使用WHO ATC代码数据。

KCD8 方法

easy level: 从所有医疗代码中随机选择。
medium level: 选项满足以下条件：代码中.之前的部分相同（例如 A01.0, A01.1, A01.2, A01.4）。
hard level: 选项满足以下条件：代码中.之前的部分和下一个数字相同（例如 A41.50, A41.51, A41.52, A41.53）。
merged: 对于相同的代码，选择最困难级别的选项。

统计信息

类别	问题数量 (测试集)
kcd8_easy	17,320
kcd8_medium	15,333
kcd8_hard	4,403
kcd8_merged	17,293

联系信息

邮箱: kyouwook@kaist.ac.kr

搜集汇总

数据集介绍

构建方式

KorMedConceptsQA数据集的构建基于韩国医学领域的专业文献和临床数据，通过专家团队的系统性标注和验证，确保了数据的高质量和权威性。数据涵盖了广泛的医学概念和临床场景，采用多轮问答形式，旨在模拟真实的医患对话环境。构建过程中，特别注重数据的多样性和代表性，以确保其在医学自然语言处理任务中的广泛应用。

特点

KorMedConceptsQA数据集以其丰富的医学知识和复杂的问答结构著称。数据集不仅包含了大量的医学术语和概念，还通过多轮对话形式展现了医学知识的深度和广度。其独特之处在于，每个问答对都经过医学专家的严格审核，确保了答案的准确性和可靠性。此外，数据集的多样性和复杂性使其成为医学自然语言处理领域的重要资源。

使用方法

KorMedConceptsQA数据集适用于多种医学自然语言处理任务，如问答系统、信息检索和临床决策支持。使用该数据集时，建议首先进行数据预处理，包括文本清洗和分词处理。随后，可以利用深度学习模型进行训练和评估，特别是在多轮对话和复杂医学概念理解方面。数据集还提供了详细的标注信息，便于研究者进行深入分析和模型优化。

背景与挑战

背景概述

KorMedConceptsQA数据集是一个专注于医学领域问答系统的数据集，旨在提升韩语医学文本的理解与处理能力。该数据集由韩国知名研究机构于2022年创建，主要研究人员包括医学信息学与自然语言处理领域的专家。其核心研究问题在于如何通过问答形式准确提取医学文本中的关键概念，并生成高质量的医学知识库。该数据集的出现填补了韩语医学问答领域的空白，为韩语医学自然语言处理技术的发展提供了重要支持，同时也为跨语言医学信息处理研究提供了新的视角。

当前挑战

KorMedConceptsQA数据集在解决医学问答领域问题时面临多重挑战。首先，医学文本的专业性与复杂性使得问答模型的训练需要高度精确的标注数据，而韩语医学术语的多样性与歧义性进一步增加了数据标注的难度。其次，构建过程中需确保数据集的覆盖范围广泛且具有代表性，涵盖不同医学领域与疾病类型，这对数据收集与整理提出了极高的要求。此外，如何平衡数据规模与标注质量，以及如何应对韩语语法结构与医学文本特有的表达方式，均是构建过程中亟待解决的技术难题。

常用场景

经典使用场景

KorMedConceptsQA数据集在医学信息检索和自然语言处理领域具有重要应用。该数据集主要用于训练和评估模型在医学概念问答任务中的表现，特别是在韩语语境下的医学知识理解和生成。通过提供丰富的医学问题和答案对，研究人员可以深入探索模型在复杂医学语境下的语义理解和推理能力。

实际应用

在实际应用中，KorMedConceptsQA数据集为韩语医学问答系统的开发提供了重要支持。基于该数据集训练的模型可以应用于智能医疗助手、在线医疗咨询平台以及医学教育工具中，帮助用户快速获取准确的医学信息，提升医疗服务的效率和可及性。

衍生相关工作

KorMedConceptsQA数据集催生了一系列相关研究工作，包括基于深度学习的医学问答模型、跨语言医学知识迁移方法以及医学文本的语义增强技术。这些工作不仅推动了韩语医学自然语言处理的发展，也为其他语言的医学问答系统提供了借鉴和参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集