five

EchoQA|医学问答数据集|心脏病学数据集

收藏
arXiv2025-03-04 更新2025-03-06 收录
医学问答
心脏病学
下载链接:
http://arxiv.org/abs/2503.02365v1
下载链接
链接失效反馈
资源简介:
EchoQA是一个开放访问的、真实世界的患者问答数据集,专注于心脏病学领域,由麻省理工学院的专家医师精心开发。该数据集包含771,244个针对各种心脏异常及其严重性的问答对,源自重症监护医学信息库(MIMIC)的超声心动报告。数据集的创建旨在推动医学领域的发展,为训练能够协助心脏病专家日常工作的语言模型建立基础。它不仅为研究人员提供了测试和比较不同机器学习方法的机遇,还旨在减轻医师的文书工作负担,使他们能够更多地关注患者护理。
提供机构:
麻省理工学院
创建时间:
2025-03-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
EchoQA数据集是通过从Medical Information Mart for Intensive Care (MIMIC)数据库中提取的超声心动图报告构建的。该数据库包含超过80,000份超声心动图报告,这些报告涵盖了从2012年到2019年在Beth Israel Deaconess Medical Center收集的数据。临床专家对这些报告进行分析,为每个心脏结构识别出独特的句子,并根据美国超声心动图学会的标准诊断标准,为每个识别出的异常分配一个从-3到3的等级,表示异常的类别和严重程度。这些句子随后与患者笔记中的句子进行匹配,以确定每个患者的异常类别等级,从而生成超过70万个问题-答案对。
特点
EchoQA数据集是迄今为止最大的开放获取、真实世界的患者问答数据集,专门用于超声心动图。它包含771,244个问答对,涵盖了各种心脏异常及其严重程度。该数据集的特点在于其真实性和规模,以及它为训练能够辅助心脏病专家进行诊断流程的语言模型提供了基础。此外,数据集还包括了细粒度的公平性审计,以评估算法在不同社会健康决定因素上的偏差-性能权衡。
使用方法
EchoQA数据集可用于训练和评估大型语言模型(LLMs),以支持心脏病专家在他们的日常工作中进行诊断。研究人员可以通过对各种LLMs进行监督微调,并与零样本设置进行比较来验证该数据集的效用。此外,该数据集还允许研究人员进行公平性审计,以评估算法在不同社会健康决定因素上的偏差。
背景与挑战
背景概述
在心血管病学领域,超声心动图报告是诊断心脏疾病、评估风险和治疗效果的重要工具。然而,随着诊断超声心动图需求的增长,管理并解释大量数据变得越来越困难。为了应对这一挑战,研究人员开发了EchoQA数据集,这是一个包含771,244个问答对的大规模数据集,旨在提高超声心动图报告中的问答系统性能。该数据集由麻省理工学院和首尔国立大学的研究人员共同创建,于2025年3月4日发布,旨在推动大型语言模型在心脏病学领域的应用。EchoQA数据集的创建填补了在现实世界医疗数据上训练和评估大型语言模型的空白,为研究人员和临床医生提供了一个宝贵资源。
当前挑战
EchoQA数据集面临的主要挑战包括:1) 所解决的领域问题:如何提高大型语言模型在超声心动图报告中的问答性能,特别是在心脏病学领域;2) 构建过程中所遇到的挑战:确保数据集的准确性和可靠性,以及解决算法偏差问题。为了应对这些挑战,研究人员对多种大型语言模型进行了微调,并使用社会健康属性进行了公平性审计,以评估算法偏差。
常用场景
经典使用场景
EchoQA数据集主要用于增强心脏病学领域中的问答系统。该数据集包含771,244个问答对,涵盖了广泛的先天性心脏病和其严重程度。通过使用EchoQA数据集,研究人员可以训练和评估大型语言模型(LLM)的性能,特别是在心脏病学领域中的问答任务。此外,EchoQA数据集还可以用于开发基于LLM的AI代理,以支持临床医生在心脏病的诊断流程中,从而减轻临床医生的文档负担,使他们能够更多地关注患者护理。
衍生相关工作
EchoQA数据集的引入为心脏病学领域中的人工智能研究提供了新的方向和机遇。该数据集的发布促进了基于LLM的AI代理在心脏病学领域的应用,并推动了心脏病学领域中人工智能的发展。此外,EchoQA数据集还促进了算法公平性的研究,通过使用社会健康属性进行公平性审计,确保算法在不同社会群体中的公平性和准确性。
数据集最近研究
最新研究方向
EchoQA数据集的引入标志着医学领域内问答系统训练数据集的又一重大进展,特别是在心脏病学领域。该数据集专为增强问答系统而设计,包含了771,244个问答对,覆盖了广泛的心脏异常及其严重程度。EchoQA的数据来源真实,有助于训练更准确和情境感知的语言模型,从而支持临床医生在诊断流程中的决策。此外,该研究还强调了在医疗保健领域算法公平性的重要性,特别是在社会决定因素方面,这有助于消除患者护理中的差异。EchoQA的引入为研究人员和实践者提供了一个测试和比较不同机器学习方法的平台,有助于推动心脏病学领域内问答系统的进步。
相关研究论文
  • 1
    EchoQA: A Large Collection of Instruction Tuning Data for Echocardiogram Reports麻省理工学院 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Sleep

该数据集包含关于睡眠效率和持续时间的信息,每个条目代表一个独特的睡眠体验,并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。

github 收录

TPTP

TPTP(Thousands of Problems for Theorem Provers)是一个包含大量逻辑问题的数据集,主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题,如一阶逻辑、高阶逻辑、命题逻辑等。

www.tptp.org 收录

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集,旨在微调大型语言模型。该数据集包含三个部分:指令(问题)、摘要(从PubMed检索的相关摘要,包含PubMed ID、摘要标题和内容)和答案(预期答案,包含PubMed ID形式的参考)。数据集通过半自动方式创建,利用了PubMedQA数据集中的问题。

huggingface 收录

中国森林病虫害

本数是中国森林病虫害。记录了1998-2000年森林虫害的持续时间、灾害大类、灾种、种类、成因、发生地区、主要受灾体描述、发生面积亩、发生面积公顷、损失立木、直接经济损失、减灾措施描述、灾情描述、灾害等级隶属性。

国家林业和草原科学数据中心 收录