five

katielink/healthsearchqa

收藏
Hugging Face2023-08-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/katielink/healthsearchqa
下载链接
链接失效反馈
资源简介:
HealthSearchQA数据集由Google发布,用于Med-PaLM论文,包含3,173个常见的消费者健康问题。这些问题是通过种子医疗条件及其相关症状检索的,反映了真实世界的消费者关注。数据集格式为开放式问题,仅包含问题和自由文本回答。
提供机构:
katielink
原始信息汇总

数据集概述

基本信息

  • 名称: HealthSearchQA
  • 许可证: 未知
  • 语言: 英语
  • 标签: 医疗
  • 任务类别: 问答

数据集详情

  • 来源: 由Google发布,用于Med-PaLM论文
  • 描述: 包含3,173个常见的消费者健康问题,使用种子医学条件及其相关症状进行筛选,旨在反映真实世界的消费者关注点。
  • 格式: 问题仅包含自由文本响应,属于开放领域。
  • 大小: 3,173个问题

数据配置

  • 配置1: all_data
    • 文件名: all.csv
  • 配置2: 140_question_subset
    • 文件名: multimedqa140_subset.csv

数据集大小

  • 范围: 1K<n<10K
搜集汇总
数据集介绍
main_image_url
构建方式
HealthSearchQA数据集的构建基于种子医疗状况及其相关症状,通过搜索引擎检索公开可用的常见搜索问题,这些问题是所有输入种子术语的用户都会看到的。数据集的构建过程体现了对现实世界中消费者健康关切的反映,旨在为消费者提供解答医疗问题的开放基准。
特点
HealthSearchQA数据集的特点在于其涵盖了3,173个由消费者提出的常见健康问题,这些问题均来源于实际搜索行为,具有极高的现实相关性。数据集以问答形式呈现,问题仅为自由文本响应,覆盖开放领域,为研究者和开发者提供了丰富的医疗问答研究素材。
使用方法
使用HealthSearchQA数据集时,用户可根据具体的研究需求选择全部数据集或140问题子集。该数据集以CSV文件格式提供,便于集成和导入至各类数据处理和分析平台。用户可通过数据集中的问题文本进行问题理解和回答生成的研究,或将其作为基准数据集评估模型的问答性能。
背景与挑战
背景概述
HealthSearchQA数据集,由Google为Med-PaLM论文而发布,其旨在为消费者健康问题的研究提供一份真实世界的参考。该数据集创建于2022年,由3,173个常见搜索的健康问题组成,其问题来源于种子医疗状况及其相关症状,反映了消费者在实际生活中的健康关注点。主要研究人员为Google团队,其研究成果对医学自然语言处理领域产生了显著影响,为相关领域的研究提供了新的开放基准。
当前挑战
HealthSearchQA数据集面临的挑战主要包括:1)如何精确地从公开可获得的搜索问题中筛选出反映消费者真实关切的医疗问题;2)数据集构建过程中的种子条件选择和问题关联性判断,这对于保证数据集的质量和实用性至关重要。此外,数据集的开放域特性也带来了问题回答的多样性和准确性验证的挑战。
常用场景
经典使用场景
在医学问答系统的研发领域,HealthSearchQA数据集被广泛用于训练模型以理解和回应消费者日常健康查询。该数据集的构成,使其成为评估模型对于消费者实际提出的问题的理解能力的经典场景。
衍生相关工作
基于HealthSearchQA数据集,研究者们衍生出了一系列相关工作,如开发新的健康问答模型、进行跨领域的知识融合研究,以及构建针对特定病种的健康咨询系统,推动了医学信息学领域的创新和发展。
数据集最近研究
最新研究方向
在医学问答领域,HealthSearchQA数据集的发布,标志着消费者健康问题研究迈向一个新的阶段。该数据集由Google为Med-PaLM论文所发布,汇集了3,173个常见消费者问题,旨在构建一个开放基准,以应对消费者提出的医学问题。其独特之处在于,这些问题是从实际用户搜索行为中提炼而来,反映了真实世界的消费者关切。当前,该数据集正被广泛用于提升医学问答系统的性能,特别是在处理自然语言自由文本响应方面,具有重大的研究和应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作