RealMedQA
收藏arXiv2024-08-16 更新2024-08-20 收录
下载链接:
https://huggingface.co/datasets/k2141255/RealMedQA
下载链接
链接失效反馈官方服务:
资源简介:
RealMedQA是由伦敦国王学院等机构创建的一个真实临床问题回答数据集,包含由医学学生和大型语言模型(LLM)生成的临床问题及其答案。数据集内容涵盖了7,385条临床指南推荐,旨在提供可靠、有指导性和有理由的答案。数据集的创建过程包括数据收集、问题生成和问题-答案对验证,确保了数据的质量和实用性。该数据集主要应用于初级护理/普通医学领域,旨在解决临床问题回答系统在实际应用中的不足,特别是在答案的可靠性、形式和适用性方面。
RealMedQA is a real-world clinical question answering dataset developed by institutions including King's College London. It comprises clinical questions and their corresponding answers generated by medical students and large language models (LLMs). The dataset covers 7,385 clinical guideline recommendations, and aims to provide reliable, instructive and justified answers. The dataset's creation process includes three core steps: data collection, question generation, and question-answer pair validation, which ensures the quality and practicality of the dataset. This dataset is mainly utilized in the field of primary care/general medicine, aiming to address the shortcomings of clinical question answering systems in practical applications, particularly in terms of answer reliability, format and applicability.
提供机构:
伦敦国王学院
创建时间:
2024-08-16
搜集汇总
数据集介绍

构建方式
RealMedQA数据集的构建采用了SQuAD风格的流程,使用英国国家卫生与保健研究所(NICE)的指南推荐作为答案。构建过程分为三个阶段:数据收集、问题生成和问题-答案对验证。数据收集阶段通过NICE API下载指南并提取推荐内容。问题生成阶段由一组医学学生和大型语言模型(LLM)生成问题。问题-答案对验证阶段由医学学生使用李克特量表对问题-答案对进行评估,以确保其质量和相关性。
特点
RealMedQA数据集的特点在于其包含真实的临床问题,这些问题的答案均由医学专业人员进行验证,保证了答案的可靠性和实用性。此外,RealMedQA数据集与BioASQ相比,问题与答案之间的词汇相似度更低,这为问答模型带来了额外的挑战。该数据集的设计旨在满足临床实践中的实际需求,为临床医生提供及时和相关的答案。
使用方法
使用RealMedQA数据集时,首先需要了解其构建方式和数据格式。数据集包含了指南推荐和对应的问题,这些问题由医学学生和LLM生成,并经过医学专业人员进行验证。研究者可以使用该数据集来训练和评估问答模型,以评估模型在实际临床问题上的性能。此外,RealMedQA数据集还可以用于比较不同问答模型在处理真实临床问题时的表现。
背景与挑战
背景概述
在临床环境中,临床问答系统(QA)有潜力为医生提供及时的相关答案,以解决他们在咨询过程中遇到的问题。然而,尽管这些系统在基准测试中取得了进步,但在实际临床应用中却进展缓慢。其中一个问题是缺乏反映医疗专业人员实际需求的问题回答数据集。为了解决这个问题,RealMedQA数据集应运而生,这是一个由人类和大型语言模型(LLM)生成的现实临床问题的数据集。该数据集旨在满足医疗专业人员对可靠、指导性和合理性的要求,其答案由英国国家健康和护理卓越研究所(NICE)提供的临床指南建议组成。RealMedQA数据集的创建和验证过程,以及使用LLM和人类生成问题答案的比较,为该领域的研究提供了宝贵的资源和见解。
当前挑战
RealMedQA数据集面临着一系列挑战。首先,尽管LLM在生成“理想”QA对方面具有成本效益,但人类核查员在是否充分回答问题的标准上存在分歧。这表明了QA对生成的标准化需要进一步研究。其次,与BioASQ数据集相比,RealMedQA中问题和答案之间的词汇相似性较低,这为顶级QA模型带来了额外的挑战。此外,生成1000个QA对的成本约为12000美元,这表明即使使用LLM,自动验证方法也需要进一步研究以降低成本。最后,随着生成式AI领域的快速发展,RealMedQA数据集需要不断更新以保持其相关性和实用性。
常用场景
经典使用场景
RealMedQA数据集旨在为临床医生提供一个包含现实临床问题的生物医学问答数据集,以解决现有数据集无法满足医疗专业人员实际需求的难题。该数据集通过人类和大型语言模型(LLM)生成问题,并经过医疗专业人员的验证,确保了问题的现实性和答案的可靠性。此外,RealMedQA数据集还通过评估不同问答模型在BioASQ和RealMedQA上的表现,以评估匹配答案与问题的相对难度。
衍生相关工作
RealMedQA数据集的发布鼓励了进一步的研究,并衍生了一系列相关的研究工作。例如,研究人员可以进一步研究如何使用LLM生成更高质量的问答数据集,以及如何使用自动验证方法来降低问答数据集的生成成本。此外,RealMedQA数据集还可以用于研究如何将问答系统应用于临床场景,以提高医疗服务的质量和效率。
数据集最近研究
最新研究方向
在临床问答系统领域,RealMedQA 数据集的引入为解决现有数据集无法满足实际临床需求的问题提供了新的思路。该数据集的特点在于其包含由人类和大型语言模型生成的真实临床问题,并以临床指南推荐作为答案。研究显示,大型语言模型在生成 '理想' 的问答对方面更具成本效益,同时 RealMedQA 的问答对在词汇相似性方面低于 BioASQ,为模型带来了额外的挑战。此外,研究还比较了人类和大型语言模型生成的问答对的质量,发现人类验证者在对问答对是否得到充分回答的问题上存在分歧。未来研究方向可能包括使用大型语言模型创建更多的问题,并探索新的提示技术,如通过语言模型级联进行问答对的自我验证。
相关研究论文
- 1RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions伦敦国王学院 · 2024年
以上内容由遇见数据集搜集并总结生成



