Long-Form Medical Question Answering Benchmark
收藏arXiv2024-11-15 更新2024-11-19 收录
下载链接:
https://github.com/lavita-ai/medical-eval-sphere
下载链接
链接失效反馈官方服务:
资源简介:
Long-Form Medical Question Answering Benchmark是由Lavita AI和达特茅斯学院合作创建的一个公开可用基准数据集,专注于长格式医疗问答。该数据集包含1298条真实世界的消费者医疗问题,这些问题经过医学专家的注释和评估。数据集的创建过程包括用户查询的收集、去重、语义去重和质量检查。该数据集旨在评估大型语言模型在医疗领域的长格式回答生成能力,解决现有基准数据集在真实临床应用中的不足。
Long-Form Medical Question Answering Benchmark is a publicly available benchmark dataset co-created by Lavita AI and Dartmouth College, focusing on long-form medical question answering. It contains 1,298 real-world consumer medical questions that have been annotated and evaluated by medical experts. The dataset construction process includes the collection, deduplication, semantic deduplication, and quality inspection of user queries. This benchmark aims to evaluate the long-form answer generation capability of large language models in the medical domain, addressing the limitations of existing benchmark datasets in real-world clinical applications.
提供机构:
达特茅斯学院
创建时间:
2024-11-15
搜集汇总
数据集介绍

构建方式
该数据集的构建过程始于从Lavita Medical AI Assist平台收集的用户查询,涵盖了2023年10月31日至2024年2月12日期间的4,271条输入,涉及1,693次对话。通过去重、移除样本问题池中的问题以及过滤非英语条目,最终筛选出2,698条查询。随后,利用GPT-4进行医学问题检测和语法修正,确保查询的准确性和质量。经过人工验证和质量检查,最终保留了1,298条高质量医学问题。为确保问题间的语义差异,采用OpenAI的text-embedding-3-large模型进行嵌入计算和DBSCAN聚类,最终形成1,077条语义上独特的医学问题。
特点
该数据集的显著特点在于其真实世界消费者医学问题的广泛覆盖,以及由医学专家进行的长篇答案评估。通过对比不同开放和封闭源的医学及通用大型语言模型(LLMs)的响应,数据集提供了基于正确性、帮助性、有害性和偏见等多维度的评估标准。此外,数据集还进行了LLM-as-a-judge分析,以研究人类判断与LLMs之间的对齐情况,初步结果显示开放LLMs在医学问答中的强大潜力。
使用方法
该数据集适用于评估和比较不同大型语言模型在长篇医学问答任务中的表现。研究者可以通过分析模型在正确性、帮助性、有害性和偏见等标准上的表现,来评估其在实际临床应用中的适用性。此外,数据集还支持LLM-as-a-judge分析,帮助研究者理解人类判断与模型判断之间的对齐情况,从而优化模型的训练和评估策略。通过公开的医学专家标注,该数据集为开发和改进医学问答模型提供了宝贵的资源和基准。
背景与挑战
背景概述
在医学领域,长格式医学问答(Long-Form Medical Question Answering, LF-MQA)的评估标准尚不完善,现有的大多数医学问答评估基准侧重于自动指标和多项选择题。尽管这些基准具有价值,但它们未能充分反映现实临床应用中的复杂性,也无法全面评估或捕捉大型语言模型(LLMs)在医学领域的细微差别和事实准确性。此外,现有关于长格式医学问答生成评估的研究主要为封闭源,缺乏对人类医学专家注释的访问,这使得结果难以复现并改进现有基线。为此,Pedram Hosseini等研究人员于2024年创建了Long-Form Medical Question Answering Benchmark数据集,该数据集包含真实世界的消费者医学问题,并由医学专家进行长格式答案评估注释。
当前挑战
构建Long-Form Medical Question Answering Benchmark数据集面临多项挑战。首先,现有医学问答评估基准的局限性,如自动指标和多项选择题,未能全面反映现实临床应用的复杂性。其次,数据集构建过程中,如何从大量用户查询中筛选出高质量的医学问题,并确保这些问题的语义独特性,是一个技术难题。此外,确保医学专家注释的准确性和一致性,以及设计有效的评估标准,以衡量模型生成的长格式答案的质量,也是该数据集面临的重大挑战。最后,如何确保数据集的开放性和可复现性,以便于学术界和工业界的进一步研究和应用,也是该数据集需要解决的问题。
常用场景
经典使用场景
Long-Form Medical Question Answering Benchmark 数据集的经典使用场景在于评估大型语言模型(LLMs)在长篇医疗问答任务中的表现。该数据集通过收集真实的消费者医疗问题,并由医学专家进行长篇回答的标注,为研究者提供了一个全面的评估平台。研究者可以利用此数据集进行模型训练和性能评估,特别是在需要生成详细、准确且无偏见的医疗回答的场景中。
实际应用
在实际应用中,Long-Form Medical Question Answering Benchmark 数据集可用于训练和评估医疗问答系统,这些系统能够为患者提供详细、准确的医疗信息。例如,患者可以通过这些系统获取关于疾病症状、治疗方案和预防措施的详细解释,从而提高自我管理和医疗决策的能力。此外,该数据集还可用于开发智能医疗助手,帮助医生快速获取和整理复杂的医疗信息,提高诊疗效率。
衍生相关工作
基于 Long-Form Medical Question Answering Benchmark 数据集,研究者们已经开展了一系列相关工作。例如,有研究通过对比不同开源和闭源医疗LLMs的性能,探讨了开源模型在医疗问答中的潜力。此外,还有研究利用该数据集进行模型微调,以提高模型在特定医疗任务中的表现。这些工作不仅推动了医疗问答技术的发展,也为未来开发更高效、更准确的医疗问答系统提供了宝贵的经验和数据支持。
以上内容由遇见数据集搜集并总结生成



