five

Medical Question Pairs (Medical Question Pairs (MQP) Dataset)

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Medical_Question_Pairs
下载链接
链接失效反馈
官方服务:
资源简介:
医学问题对 (MQP) 数据集 该存储库包含由 Curai 的医生手动生成和标记的 3048 个相似和不同的医学问题对的数据集。该数据集在我们的论文中有详细描述。 方法 我们向我们的医生展示了从 HealthTap 公开可用的爬网中随机抽取的 1524 个患者提出的问题的列表。通过提供给贴标者的以下说明,每个问题都会产生一对相似和不同的对: 以不同的方式重写原始问题,同时保持相同的意图。尽可能重组语法并更改不会影响您的反应的医疗细节。 例如“我是 22 岁的女性”可以变成“我 26 岁的女儿” 提出一个相关但不同的问题,对于该问题,原始问题的答案将是错误的或无关紧要的。使用相似的关键词。 第一条指令生成肯定问题对(相似),第二条指令生成否定问题对(不同)。根据上述说明,我们有意构建任务,使得正面问题对在表面指标上看起来非常不同,而负面问题对相反看起来非常相似。这确保了任务不是微不足道的。 数据集格式 数据集的格式为 dr_id、question_1、question_2、label。我们为此任务使用了 11 位不同的医生,因此 dr_id 的范围从 1 到 11。如果问题对相似,则标签为 1,否则为 0。 数据集统计 最终数据集包含 4567 个独特的问题。这些问题中的最小、最大、中值和平均令牌数分别为 4、81、20 和 22.675,表明问题的长度存在合理的差异。最短的问题是纤维腺瘤是恶性的吗? 现成的医疗实体识别器在问题中发现大约 1000 个独特的医疗实体。一些最重要的实体提及是:医生、怀孕、疼痛、持续数周、月经、情绪状态、癌症、视觉功能、头痛、出血、发烧、性交
提供机构:
OpenDataLab
创建时间:
2022-06-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作