k2141255/RealMedQA

Name: k2141255/RealMedQA
Creator: k2141255
Published: 2023-12-11 11:43:55
License: 暂无描述

Hugging Face2023-12-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/k2141255/RealMedQA

下载链接

链接失效反馈

官方服务：

资源简介：

RealMedQA是一个生物医学问答数据集，包含由医学生和大型语言模型（LLM）生成的现实问题及其答案，答案来自英国国家健康与护理卓越研究所（NICE）的指南推荐。数据集的创建过程包括从NICE API检索指南、筛选与临床实践相关的指南、生成问题、验证问题的质量等步骤。数据集的结构包括问题生成者、问题、推荐答案、问题是否合理、问题是否被充分回答等列。

提供机构：

k2141255

原始信息汇总

RealMedQA

RealMedQA 是一个生物医学问答数据集，包含现实生活中的问题和答案对。问题由医学生和大型语言模型（LLM）创建，而答案是英国国家健康与护理卓越研究所（NICE）提供的指南建议。

数据集创建

数据收集

最初，通过 NICE syndication API 检索了 12,543 条指南。由于我们只对与临床实践相关的指南感兴趣，因此只使用了属于“疾病和病症”类别的指南，数量减少到 7,385 条。

问题生成

我们创建了一个包含示例的指导表，供人类（医学生）和 LLM 生成每个指南建议的多个问题。指导表作为提示与每个建议一起输入 LLM，而人类则使用 Google 表单创建问题。

问题验证

由 LLM 和人类注释者生成的 QA 对都由人类进行质量验证。验证者被要求判断每个问题：

是否可能由临床医生在实践中提出；
是否由伴随的建议充分回答。

总共验证了 800 对人类 QA 和 400 对 LLM QA。

数据集结构

数据集的结构如下列列：

Generator: 问题是由 Human 还是 LLM 生成的；
Question: 由人类或 LLM 创建的问题；
Recommendation: 旨在回答问题的建议；
Plausible: 问题是否可能由临床医生在实践中提出（由验证者评估）；
Answered: 问题是否由临床医生充分回答（由验证者评估）。

联系

Gregory Kell: gregory.kell@kcl.ac.uk
Iain Marshall: iain.marshall@kcl.ac.uk

5,000+

优质数据集

54 个

任务类型

进入经典数据集