Medical Question Pairs (Medical Question Pairs (MQP) Dataset)
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Medical_Question_Pairs
下载链接
链接失效反馈官方服务:
资源简介:
医学问题对 (MQP) 数据集
该存储库包含由 Curai 的医生手动生成和标记的 3048 个相似和不同的医学问题对的数据集。该数据集在我们的论文中有详细描述。
方法
我们向我们的医生展示了从 HealthTap 公开可用的爬网中随机抽取的 1524 个患者提出的问题的列表。通过提供给贴标者的以下说明,每个问题都会产生一对相似和不同的对:
以不同的方式重写原始问题,同时保持相同的意图。尽可能重组语法并更改不会影响您的反应的医疗细节。
例如“我是 22 岁的女性”可以变成“我 26 岁的女儿”
提出一个相关但不同的问题,对于该问题,原始问题的答案将是错误的或无关紧要的。使用相似的关键词。
第一条指令生成肯定问题对(相似),第二条指令生成否定问题对(不同)。根据上述说明,我们有意构建任务,使得正面问题对在表面指标上看起来非常不同,而负面问题对相反看起来非常相似。这确保了任务不是微不足道的。
数据集格式
数据集的格式为 dr_id、question_1、question_2、label。我们为此任务使用了 11 位不同的医生,因此 dr_id 的范围从 1 到 11。如果问题对相似,则标签为 1,否则为 0。
数据集统计
最终数据集包含 4567 个独特的问题。这些问题中的最小、最大、中值和平均令牌数分别为 4、81、20 和 22.675,表明问题的长度存在合理的差异。最短的问题是纤维腺瘤是恶性的吗?
现成的医疗实体识别器在问题中发现大约 1000 个独特的医疗实体。一些最重要的实体提及是:医生、怀孕、疼痛、持续数周、月经、情绪状态、癌症、视觉功能、头痛、出血、发烧、性交
提供机构:
OpenDataLab
创建时间:
2022-06-28



