five

MediQ-AskDocs

收藏
arXiv2025-02-21 更新2025-02-22 收录
下载链接:
https://huggingface.co/datasets/stellalisy/MediQ_AskDocs
下载链接
链接失效反馈
官方服务:
资源简介:
MediQ-AskDocs数据集由华盛顿大学、卡内基梅隆大学和艾伦人工智能研究所构建,包含来自r/AskDocs子版的17k个真实世界临床互动和80k个属性特定的偏好对。该数据集旨在通过提供细粒度的训练信号来改善大型语言模型在提出问题方面的能力,特别是在专业领域如临床推理中。

The MediQ-AskDocs dataset is constructed by the University of Washington, Carnegie Mellon University, and the Allen Institute for AI. It contains 17k real-world clinical interactions from the r/AskDocs subreddit and 80k attribute-specific preference pairs. This dataset aims to enhance the question-posing capabilities of large language models (LLMs) by providing fine-grained training signals, particularly in professional domains like clinical reasoning.
提供机构:
华盛顿大学, 卡内基梅隆大学,艾伦人工智能研究所
创建时间:
2025-02-21
搜集汇总
数据集介绍
main_image_url
构建方式
MediQ-AskDocs数据集是通过收集r/AskDocs在线健康论坛上的真实临床互动来构建的。该论坛的用户包括普通用户和专家用户,他们在论坛上讨论健康问题。数据集包含了17,000个真实的临床互动,这些互动中包含了患者发布的信息和社区成员提出的后续问题。为了训练模型更好地提出问题,研究团队使用LLM生成了80,000个针对每个属性(如清晰度、相关性、可回答性、医学准确性、诊断相关性和避免DDX偏差)的对比问题对。这些对比问题对为模型的偏好学习提供了细粒度的训练信号。
使用方法
MediQ-AskDocs数据集的使用方法包括以下步骤:首先,收集真实的临床互动数据,这些互动中包含了患者发布的信息和社区成员提出的后续问题。然后,使用LLM生成针对每个属性的对比问题对。这些对比问题对为模型的偏好学习提供了细粒度的训练信号。接下来,将生成的对比问题对用于训练模型。可以使用监督微调、偏好微调或强化学习等方法来训练模型。最后,评估模型的提问能力。可以使用MediQ交互式框架来评估模型的提问能力。MediQ框架模拟了医生和患者之间的交互,并评估模型提出的问题如何影响最终诊断的准确性。
背景与挑战
背景概述
MediQ-AskDocs数据集是在2025年由华盛顿大学、卡内基梅隆大学和艾伦人工智能研究所的研究人员共同创建的。该数据集的创建旨在解决大型语言模型(LLM)在不确定性情况下无法提出有效问题的缺陷,特别是在需要主动收集信息的领域中,如临床推理。该数据集由17,000个真实的临床互动组成,这些互动中包含了80,000个属性特定的后续问题偏好对,以及一个由专家标注的互动医疗保健问答任务,用于评估提问能力。MediQ-AskDocs数据集的核心研究问题是提高LLM在临床推理中的提问能力,以减少诊断错误并提高决策的准确性。该数据集对相关领域的影响力在于,它提供了一个新的方法来训练LLM,使其能够在专业领域中进行有效的信息收集,并通过结构化、细粒度的属性来指导提问,从而提高了LLM的可靠性和有效性。
当前挑战
MediQ-AskDocs数据集面临的挑战主要包括:1)定义“好”的问题的复杂性,这需要考虑清晰度、相关性、可回答性等属性,以及临床推理中的医疗准确性、诊断相关性和避免诊断偏差等额外属性;2)构建数据集的挑战,包括从在线健康论坛中收集数据,并通过LLM生成属性特定的后续问题偏好对,同时确保数据质量;3)将属性特定的信号整合到一个统一的策略中,以优化整个复杂的目标。此外,数据集还面临一些局限性,如手动属性选择、LLM依赖性、人类注释的主观性、数据来源和数据范围等。
常用场景
经典使用场景
MediQ-AskDocs数据集主要应用于临床推理领域,旨在提升大型语言模型(LLM)在不确定性情况下提出有效问题的能力。该数据集包含17k个真实世界的临床互动和80k个针对特定属性的后续问题偏好对,以及一个专家注释的交互式医疗保健问答任务,用于评估提出问题的能力。通过使用ALFA框架,模型可以在MediQ-AskDocs上减少56.6%的诊断错误,与最先进的指令调整LLM相比,问题级别的胜率为64.4%,并具有强大的泛化能力。ALFA框架通过将“好”问题的概念分解为一组基于理论的属性(例如,清晰度、相关性),可控地合成属性特定的提问变化,并通过基于偏好的优化对齐模型,以明确地学习如何沿着这些细粒度属性提出更好的问题。
解决学术问题
MediQ-AskDocs数据集解决了LLM在提出有效问题方面的挑战,尤其是在高 stakes场景中,例如临床推理、法律分析、调查性新闻等。该数据集通过引入理论支持的属性,如清晰度、相关性、可回答性、医疗准确性、诊断相关性和避免诊断偏差,来提升LLM的信息收集能力。此外,该数据集还引入了一个新的专家注释的交互式医疗保健QA任务,用于评估LLM提出问题的能力。ALFA框架与MediQ-AskDocs数据集的结合,为LLM在专业应用领域中的可靠性提供了可扩展的改进路径。
实际应用
MediQ-AskDocs数据集的实际应用场景主要涉及医疗保健领域,特别是临床推理。通过使用ALFA框架,模型可以更有效地提出问题,以减少诊断错误并提高医疗保健服务的质量和效率。此外,该数据集还可以用于训练其他类型的语言模型,例如问答系统、聊天机器人和自然语言处理系统,以提高它们在信息收集和问题解决方面的能力。ALFA框架与MediQ-AskDocs数据集的结合,为医疗保健领域中的LLM应用提供了新的可能性,并有助于提高医疗保健服务的质量和效率。
数据集最近研究
最新研究方向
MediQ-AskDocs数据集的最新研究方向主要集中在如何利用大型语言模型(LLMs)在临床推理中提出更有效的问题。ALFA框架被提出,旨在通过将“好”问题的概念分解为一系列基于理论的属性(如清晰度、相关性),可控地合成属性特定的问法变体,并通过基于偏好的优化来对齐模型,从而显式地学习沿着这些细粒度属性提出更好的问题。MediQ-AskDocs数据集包含17k个现实世界的临床交互,以及80k个属性特定的后续问题偏好对,以及一个新的由专家注释的交互式医疗保健问答任务,用于评估提问能力。与最先进的指令调整LLMs相比,与ALFA对齐的模型在MediQ-AskDocs上减少了56.6%的诊断错误,具有64.4%的问题级别胜率,并且具有强大的泛化能力。这些发现表明,通过结构化的、细粒度的属性来显式地指导提问,为提高LLMs提供了一条可扩展的途径,特别是在专家应用领域。
相关研究论文
  • 1
    Aligning LLMs to Ask Good Questions A Case Study in Clinical Reasoning华盛顿大学, 卡内基梅隆大学,艾伦人工智能研究所 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作