UCSD-AI4H/covid_qa_ucsd

Name: UCSD-AI4H/covid_qa_ucsd
Creator: UCSD-AI4H
Published: 2024-01-18 09:46:01
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/UCSD-AI4H/covid_qa_ucsd

下载链接

链接失效反馈

官方服务：

资源简介：

COVID-Dialogue数据集是一个关于COVID-19和其他类型肺炎的医疗对话数据集，包含英文和中文两种语言。数据集中的对话涉及患者因担心感染COVID-19或其他肺炎而咨询医生，医生则提供建议。英文数据集包含603次咨询，中文数据集包含1393次咨询。数据集以单一文本文件形式存在，分别对应中文和英文版本。数据集用于问答任务，并且有一个针对中文数据的COVID-19对话生成模型。

The COVID-Dialogue dataset is a medical dialogue dataset focused on COVID-19 and other types of pneumonia, available in both English and Chinese languages. The dialogues in the dataset involve patients consulting doctors out of concerns about contracting COVID-19 or other pneumonia, with doctors providing corresponding medical advice. The English subset contains 603 consultation sessions, while the Chinese subset has 1,393 consultation sessions. The dataset is stored as two separate plain text files corresponding to the Chinese and English versions respectively. This dataset is designed for question answering tasks, and there is a COVID-19 dialogue generation model tailored specifically for the Chinese portion of the dataset.

提供机构：

UCSD-AI4H

原始信息汇总

数据集概述

数据集描述

数据集摘要

COVID-Dialogue-Dataset-English: 这是一个关于COVID-19和其他类型肺炎的英语医疗对话数据集。患者担心可能感染COVID-19或其他肺炎，咨询医生并获得建议。共有603次咨询。
COVID-Dialogue-Dataset-Chinese: 这是一个关于COVID-19和其他类型肺炎的中文医疗对话数据集。患者担心可能感染COVID-19或其他肺炎，咨询医生并获得建议。共有1393次咨询。

支持的任务和排行榜

该数据集用于问答任务。对于中文数据，还有一个COVID-19对话生成模型可用。更多信息可在arXiv预印本中找到。

语言

单语种数据集，包含英语（EN）和中文（ZH）。

数据集结构

数据实例

一个对话示例如下：

json { dialogue_id: 602, dialogue_url: https://www.healthtap.com/member/fg?page=/search/covid, dialogue_turns: [{speaker: Patient, utterance: Can coronavirus symptoms be mild for some people versus severe? For example, could it just involve being very fatigued, low grade fever for a few days and not the extreme symptoms? Or is it always a full blown cold and struggle to breathe?Can coronavirus symptoms be mild for some people versus severe? For example, could it just involve being very fatigued, low grade fever for a few days and not the extreme symptoms? Or is it always a full blown cold and struggle to breathe?}, {speaker: Doctor, utterance: In brief: Symptoms vary. Some may have no symptoms at all. Some can be life threatening. Would you like to video or text chat with me?}] }

数据字段

每个咨询包含以下内容：

ID
URL
患者医疗状况描述
对话
诊断和建议（可选，多为中文）

数据分割

原始数据没有进行数据分割。

数据集创建

数据来源

英语数据集: 来自icliniq.com、healthcaremagic.com、healthtap.com，所有版权属于这些网站。
中文数据集: 来自Haodf.com，所有版权属于Haodf.com。

附加信息

数据集创建者

标题: CovidDialog: Medical Dialogue Datasets about COVID-19
作者: Ju, Zeqian and Chakravorty, Subrato and He, Xuehai and Chen, Shu and Yang, Xingyi and Xie, Pengtao
年份: 2020
链接: GitHub

贡献

感谢@vrindaprabhu添加此数据集。

搜集汇总

数据集介绍

构建方式

在新型冠状病毒肺炎（COVID-19）全球大流行的背景下，医疗对话数据的稀缺性成为制约智能问诊系统发展的关键瓶颈。UCSD-AI4H/covid_qa_ucsd数据集应运而生，其构建过程严谨而系统。英文子集的数据源自icliniq.com、healthcaremagic.com和healthtap.com三大知名医疗咨询平台，中文子集则采集自好大夫在线（haodf.com）。研究团队从这些平台上爬取了大量关于COVID-19及其他类型肺炎的医患对话记录，经过清洗与标准化处理，最终保留对话的核心结构：包含对话唯一标识符、原始链接地址以及完整的医患交互序列。每个对话回合均标注了说话者角色（患者或医生）和具体话语内容，从而形成了结构化的问答对，为封闭域问答任务提供了坚实的数据基础。

特点

该数据集最显著的特征在于其双语并行架构与明确的领域聚焦性。它同时提供英语和中文两个独立配置，分别包含572条和1088条医患对话实例，覆盖了COVID-19及相关肺炎的多样化临床场景。每个对话实例均以结构化的JSON格式呈现，包含对话ID、来源URL及回合序列，其中回合序列由说话者类别标签和话语文本组成，便于模型直接解析与使用。数据集的规模虽属中小型，但胜在质量精良，所有对话均源自真实医疗咨询平台，具有高度的真实性和临床相关性。此外，数据集的设计充分考虑了隐私保护，仅保留对话内容而不含患者个人身份信息，为研究者提供了安全可靠的实验素材。

使用方法

在实际应用中，该数据集主要服务于封闭域问答系统的训练与评估。研究者可通过HuggingFace Datasets库轻松加载数据，使用load_dataset('UCSD-AI4H/covid_qa_ucsd', 'en')或load_dataset('UCSD-AI4H/covid_qa_ucsd', 'zh')分别获取英文或中文子集。加载后的数据可直接用于构建基于检索或生成式模型的问答系统，例如利用对话历史生成医生回复，或从对话中提取关键诊断信息。由于数据集未预设训练-测试划分，建议使用者自行按照8:2或7:3的比例进行随机分割。此外，该数据集还可与预训练语言模型（如BERT、GPT系列）结合，通过微调实现COVID-19领域的专业问答能力，推动智能医疗咨询系统的落地应用。

背景与挑战

背景概述

在新型冠状病毒肺炎（COVID-19）疫情全球蔓延的背景下，快速、准确地获取医学知识与诊断建议成为公共卫生领域的迫切需求。由加州大学圣地亚哥分校（UCSD）人工智能与健康（AI4H）实验室于2020年创建的CovidQaUcsd数据集，聚焦于COVID-19及相关肺炎的医患对话问答任务。该数据集通过整合来自icliniq.com、healthcaremagic.com、healthtap.com等英文医疗平台以及好大夫在线（Haodf.com）中文平台的真实咨询记录，构建了包含603个英文对话和1393个中文对话的多语料库，旨在推动封闭域问答系统的研究与开发。其核心研究问题在于如何利用人工智能技术从医患对话中提取关键诊断信息，为自动生成医疗建议提供数据支撑，对疫情下的智能医疗对话系统发展具有重要推动作用。

当前挑战

该数据集面临的挑战主要体现在领域问题与构建过程两个方面。在领域问题层面，COVID-19症状表现多样，从无症状感染到重症呼吸窘迫，医患对话中常包含模糊、非结构化的描述，使得问答系统需具备处理症状变异性和不完整信息的能力；同时，数据集规模有限（英文仅572条、中文1088条），难以覆盖所有临床场景，易导致模型过拟合或泛化不足。在构建过程中，数据来源于多个第三方医疗平台，版权归属复杂且许可协议不明，限制了数据集的公开分发与商业使用；此外，原始对话中可能包含患者隐私信息，尽管数据集已进行脱敏处理，但敏感信息的潜在泄露风险仍需警惕，这为数据的合规使用与伦理审查带来了额外挑战。

常用场景

经典使用场景

在新冠病毒全球大流行的背景下，医患对话数据成为构建智能问答系统的关键资源。UCSD-AI4H/covid_qa_ucsd数据集收录了中英文双语的新冠肺炎及肺炎相关医患对话，涵盖603条英文咨询与1393条中文咨询，每条对话包含患者主诉与医生建议。其经典使用场景聚焦于封闭域问答任务，研究者可基于对话轮次中的问答对，训练模型精准理解患者症状描述并生成医学建议，尤其适用于构建面向新冠疫情的自动化预检分诊与健康咨询系统。

解决学术问题

该数据集有效填补了疫情初期医学对话语料匮乏的空白，解决了两个核心学术问题：其一，为低资源场景下的医学领域对话生成提供标注数据，推动少样本学习与迁移学习方法在医疗文本中的探索；其二，支持跨语言医学问答的对比研究，揭示中英文医疗咨询在表述习惯与诊断逻辑上的差异。其意义在于加速了自然语言处理技术在公共卫生应急响应中的应用，为后续COVID-19相关对话系统的鲁棒性评估奠定了基准。

衍生相关工作

该数据集衍生了一系列经典工作，最具代表性的是基于其中文子集提出的COVID-19对话生成模型（arXiv:2005.05442），该工作首次将Transformer架构适配于医疗对话场景，通过注意力机制捕捉症状与诊断间的长程依赖。后续研究进一步拓展了数据集的用途，包括利用对话结构增强预训练语言模型的医学实体识别能力，以及构建对抗性样本测试问答系统的抗噪性能。此外，数据集还催生了跨领域对话生成方法的比较研究，成为评估医疗NLP模型泛化性的重要测试床。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集