Medical Question Pairs (MQP) Dataset

github2024-03-14 更新2024-05-31 收录

下载链接：

https://github.com/curai/medical-question-pair-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含由Curai的医生手工生成和标注的3048个相似和不相似的医疗问题对数据集。数据集详细描述在我们的论文中，每个问题通过不同的指令生成相似或不同的问答对，确保任务的非平凡性。

This repository contains a dataset of 3,048 pairs of similar and dissimilar medical questions, manually generated and annotated by physicians from Curai. The dataset is described in detail in our paper, where each question is used to generate similar or dissimilar question-answer pairs through different instructions, ensuring the non-triviality of the task.

创建时间：

2020-07-20

原始信息汇总

Medical Question Pairs (MQP) Dataset 概述

数据集描述

名称: Medical Question Pairs (MQP) Dataset
内容: 包含3048对相似和不相似的医疗问题对，由Curai的医生手工生成和标记。
来源: 基于1524个随机抽样的公开可用患者提问，来自HealthTap的数据集。

生成方法

相似问题对: 通过重写原始问题，保持相同意图，改变不影响回答的医疗细节。
不相似问题对: 创造一个相关但不同的问题，使得原始问题的答案不适用或无关。

数据集格式

结构: dr_id, question_1, question_2, label
医生ID: 1至11，共11位不同医生参与标记。
标签: 1表示问题对相似，0表示不相似。

数据集统计

问题数量: 4567个独特问题。
问题长度: 最小4个词，最大81个词，中位数20个词，平均22.675个词。
医疗实体: 约1000个独特医疗实体，常见实体包括physician, pregnancy, pain等。

搜集汇总

数据集介绍

构建方式

Medical Question Pairs (MQP) 数据集的构建过程基于医学领域的专业知识，通过Curai的医生手工生成和标注。数据集的构建方法包括从公开的HealthTap数据集中随机抽取1524个患者提问，并由医生根据特定指令生成相似和不相似的问句对。具体而言，医生首先对原始问题进行重写，保持意图不变但改变语法结构和部分医学细节，生成相似问句对；其次，医生提出一个相关但意图不同的问题，生成不相似问句对。这一方法确保了相似问句对在表面特征上可能差异较大，而不相似问句对则可能表面相似，从而增加了任务的复杂性。

使用方法

MQP数据集可用于训练和评估医学领域的自然语言处理模型，特别是在问句相似性任务中。用户可以通过加载数据集文件，访问`question_1`和`question_2`字段进行问句对的分析，并根据`label`字段判断问句对的相似性。该数据集还可用于研究医学实体的识别和分类，通过分析问题中的医学实体，提升模型在医学领域的理解和处理能力。此外，数据集中的医生编号`dr_id`可用于研究不同医生在标注过程中的一致性，为医学标注任务提供参考。

背景与挑战

背景概述

Medical Question Pairs (MQP) 数据集由Curai的医生团队手工生成和标注，包含3048对相似与不相似的医学问题对。该数据集于2020年发布，旨在解决医学问题相似性判定的核心研究问题。通过从公开的HealthTap数据集中随机抽取1524个患者提问，医生团队根据特定指令生成了相似和不相似的问题对。该数据集在医学自然语言处理领域具有重要影响力，为医学问答系统的开发与评估提供了高质量的训练和测试资源。其独特的设计使得相似问题对在表面特征上可能差异显著，而不相似问题对则可能看似相似，从而提升了任务的复杂性。

当前挑战

MQP数据集在构建过程中面临多重挑战。首先，医学问题的相似性判定本身具有高度复杂性，涉及医学知识的深度理解与语义的精确匹配。其次，生成相似问题对时，医生需要在不改变问题意图的前提下，尽可能重构语法和修改医学细节，这对标注者的专业能力提出了极高要求。此外，生成不相似问题对时，需确保其与原始问题的关键词相似，但答案却错误或不相关，这进一步增加了标注的难度。这些挑战使得数据集的构建过程极为耗时且需要高度的专业知识，同时也为后续的模型训练和评估带来了更高的标准。

常用场景

经典使用场景

在医学信息检索和自然语言处理领域，Medical Question Pairs (MQP) Dataset 被广泛用于训练和评估模型，以识别和匹配具有相同意图但表达方式不同的医学问题。该数据集通过提供相似和不相似的医学问题对，帮助研究人员开发能够理解复杂医学语言和意图的算法。

解决学术问题

MQP 数据集解决了医学领域中的语义相似性问题，特别是在处理患者提问的多样性和复杂性时。通过提供精确标注的相似和不相似问题对，该数据集为研究人员提供了一个基准，用于开发和测试能够准确识别医学问题意图的模型，从而提升医学问答系统的准确性和效率。

实际应用

在实际应用中，MQP 数据集被用于优化医学问答系统和患者支持平台。通过利用该数据集训练的模型，医疗机构能够更准确地理解患者的提问，提供更相关的医学建议和信息，从而改善患者的医疗体验和健康管理。

数据集最近研究