UCSD26/medical_dialog

Hugging Face2023-09-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/UCSD26/medical_dialog

下载链接

链接失效反馈

资源简介：

MedDialog数据集包含中英文两种语言的医患对话数据。中文数据集包含110万条对话和400万条话语，数据来源于haodf.com。英文数据集包含26万条对话，数据来源于healthcaremagic.com和icliniq.com。数据集的结构包括原始数据和经过处理的数据，原始数据包含对话ID、URL、患者病情描述和对话内容，处理后的数据则包括描述和对话话语。数据集的主要任务是封闭领域的问答（Closed domain QA）。

The MedDialog dataset contains doctor-patient dialogue data in both Chinese and English. The Chinese subset includes 1.1 million dialogues and 4 million utterances, sourced from haodf.com. The English subset consists of 260,000 dialogues, collected from healthcaremagic.com and icliniq.com. The dataset is structured into raw data and processed data. The raw data contains dialogue ID, URL, patient condition description and dialogue content, while the processed data includes descriptions and dialogue utterances. The core task of this dataset is closed-domain question answering (Closed Domain QA).

提供机构：

UCSD26

原始信息汇总

MedDialog 数据集概述

数据集描述

数据集摘要

MedDialog 数据集（中文）：包含医生和患者之间的对话（中文），共有 110 万对话和 400 万条话语。数据持续增长，将添加更多对话。原始对话来自 haodf.com，所有版权属于 haodf.com。
MedDialog 数据集（英文）：包含医生和患者之间的对话（英文），共有 26 万对话。数据持续增长，将添加更多对话。原始对话来自 healthcaremagic.com 和 icliniq.com，所有版权属于 healthcaremagic.com 和 icliniq.com。

支持的任务和排行榜

任务类别：问答（question-answering）
任务 ID：封闭领域问答（closed-domain-qa）

语言

多语言性：单语种（monolingual）
支持语言：英语（en）和中文（zh）

数据集结构

数据实例

数据集包含四种配置：

原始数据：
- en
- zh
处理数据：
- processed.en
- processed.zh

en

每个咨询包含以下内容：

ID
URL
患者医疗状况描述
对话

数据来自 icliniq.com、healthcaremagic.com 和 healthtap.com，所有版权属于这些网站。

zh

每个咨询包含以下内容：

ID
URL
患者医疗状况描述
对话
（可选）诊断和建议

数据来自 Haodf.com，所有版权属于 Haodf.com。

数据字段

file_name：字符串，表示对话提取的文件
dialogue_id：int32，对话 ID
dialogue_url：字符串，对话的 URL
dialogue_turns：datasets.Sequence，患者和医生之间的对话序列，包含 speaker（class_label，名称 ["病人", "医生"]）和 utterance（字符串）

processed.en

description：字符串，对话描述
utterances：字符串列表，患者和医生之间的对话

processed.zh

utterances：字符串列表，患者和医生之间的对话

数据分割

原始数据：
- en：229674 个示例
- zh：1921127 个示例
处理数据：
- processed.en：
  - train：482 个示例
  - validation：60 个示例
  - test：61 个示例
- processed.zh：
  - train：2725989 个示例
  - validation：340748 个示例
  - test：340754 个示例

数据集创建

策划理由

医疗对话系统在协助远程医疗方面具有潜力，可以增加医疗服务获取、提高患者护理质量并降低医疗成本。

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

作者声明：

数据从以下网站抓取：
- MedDialog-EN：从 icliniq.com 和 healthcaremagic.com 抓取
- MedDialog-CN：从 haodf.com 抓取
所有版权属于相应网站

引用信息

@article{chen2020meddiag, title={MedDialog: a large-scale medical dialogue dataset}, author={Chen, Shu and Ju, Zeqian and Dong, Xiangyu and Fang, Hongchao and Wang, Sicheng and Yang, Yue and Zeng, Jiaqi and Zhang, Ruisi and Zhang, Ruoyu and Zhou, Meng and Zhu, Penghui and Xie, Pengtao}, journal={arXiv preprint arXiv:2004.03329}, year={2020} }

贡献

感谢 @vrindaprabhu 添加此数据集。

搜集汇总

数据集介绍

构建方式

MedDialog数据集的构建基于从多个医疗相关网站收集的真实对话数据。具体而言，中文数据集从haodf.com获取，包含110万对话和400万条语句；英文数据集则从healthcaremagic.com和icliniq.com收集，包含26万对话。这些数据通过网络爬虫技术获取，并经过初步处理以确保对话的完整性和一致性。数据集的构建旨在支持医疗对话系统的研究，特别是封闭领域的问答任务。

使用方法

MedDialog数据集可用于多种自然语言处理任务，尤其是封闭领域的问答任务。用户可以通过访问数据集的GitHub仓库或HuggingFace页面下载数据，并根据提供的配置文件选择所需的语言和数据格式。数据集的结构清晰，用户可以轻松提取对话中的关键信息，如对话ID、URL、说话者身份及语句内容。此外，数据集还提供了预处理版本，便于直接用于模型训练和评估。

背景与挑战

背景概述

MedDialog数据集由UCSD-AI4H团队创建，旨在为医疗对话系统提供大规模的对话数据支持。该数据集包含两个主要版本：中文版和英文版，分别涵盖了110万和26万条医患对话。这些对话数据来源于haodf.com、healthcaremagic.com和icliniq.com等医疗平台，涵盖了丰富的医患交流场景。数据集的创建旨在推动医疗对话系统的研究，特别是在远程医疗、患者护理质量提升和医疗成本降低等方面。通过提供高质量的对话数据，MedDialog为医疗领域的自然语言处理研究提供了宝贵的资源，推动了相关技术的进步。

当前挑战

MedDialog数据集在构建过程中面临多项挑战。首先，数据来源的多样性和版权问题使得数据收集和处理变得复杂，尤其是在确保数据合法性和隐私保护方面。其次，医疗对话的特殊性要求数据集在语言表达、专业术语和对话结构上具备高度的准确性和一致性，这对数据清洗和标注提出了较高要求。此外，医疗对话系统在实际应用中需应对语言多样性、文化差异和潜在的偏见问题，这些挑战需要在数据集的使用和模型训练中得到充分考虑。最后，数据集的持续扩展和更新也是一个重要挑战，以确保其能够反映医疗对话的最新动态和多样性。

常用场景

经典使用场景

MedDialog数据集在医疗对话系统中具有广泛的应用，尤其是在构建智能问答系统和医疗咨询助手方面。通过分析医生与患者之间的对话，该数据集能够帮助模型理解医疗场景中的语言模式和专业术语，从而提升对话系统的准确性和自然度。

解决学术问题

MedDialog数据集为研究者提供了一个大规模的医疗对话语料库，解决了医疗领域中对话数据稀缺的问题。通过该数据集，研究者可以深入探讨医疗对话中的语言特征、信息传递模式以及医患互动的复杂性，推动医疗对话系统的学术研究。

实际应用

在实际应用中，MedDialog数据集可用于开发智能医疗助手，帮助患者获取初步的医疗建议，减轻医生的工作负担。此外，该数据集还可用于训练医疗问答系统，提升其在特定疾病诊断、治疗建议等方面的表现，从而提高医疗服务的效率和质量。

数据集最近研究