five

UCSD26/medical_dialog

收藏
Hugging Face2023-09-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/UCSD26/medical_dialog
下载链接
链接失效反馈
资源简介:
MedDialog数据集包含中英文两种语言的医患对话数据。中文数据集包含110万条对话和400万条话语,数据来源于haodf.com。英文数据集包含26万条对话,数据来源于healthcaremagic.com和icliniq.com。数据集的结构包括原始数据和经过处理的数据,原始数据包含对话ID、URL、患者病情描述和对话内容,处理后的数据则包括描述和对话话语。数据集的主要任务是封闭领域的问答(Closed domain QA)。

The MedDialog dataset contains doctor-patient dialogue data in both Chinese and English. The Chinese subset includes 1.1 million dialogues and 4 million utterances, sourced from haodf.com. The English subset consists of 260,000 dialogues, collected from healthcaremagic.com and icliniq.com. The dataset is structured into raw data and processed data. The raw data contains dialogue ID, URL, patient condition description and dialogue content, while the processed data includes descriptions and dialogue utterances. The core task of this dataset is closed-domain question answering (Closed Domain QA).
提供机构:
UCSD26
原始信息汇总

MedDialog 数据集概述

数据集描述

数据集摘要

  • MedDialog 数据集(中文):包含医生和患者之间的对话(中文),共有 110 万对话和 400 万条话语。数据持续增长,将添加更多对话。原始对话来自 haodf.com,所有版权属于 haodf.com。
  • MedDialog 数据集(英文):包含医生和患者之间的对话(英文),共有 26 万对话。数据持续增长,将添加更多对话。原始对话来自 healthcaremagic.com 和 icliniq.com,所有版权属于 healthcaremagic.com 和 icliniq.com。

支持的任务和排行榜

  • 任务类别:问答(question-answering)
  • 任务 ID:封闭领域问答(closed-domain-qa)

语言

  • 多语言性:单语种(monolingual)
  • 支持语言:英语(en)和中文(zh)

数据集结构

数据实例

数据集包含四种配置:

  • 原始数据
    • en
    • zh
  • 处理数据
    • processed.en
    • processed.zh

en

每个咨询包含以下内容:

  • ID
  • URL
  • 患者医疗状况描述
  • 对话

数据来自 icliniq.com、healthcaremagic.com 和 healthtap.com,所有版权属于这些网站。

zh

每个咨询包含以下内容:

  • ID
  • URL
  • 患者医疗状况描述
  • 对话
  • (可选)诊断和建议

数据来自 Haodf.com,所有版权属于 Haodf.com。

数据字段

  • file_name:字符串,表示对话提取的文件
  • dialogue_id:int32,对话 ID
  • dialogue_url:字符串,对话的 URL
  • dialogue_turns:datasets.Sequence,患者和医生之间的对话序列,包含 speaker(class_label,名称 ["病人", "医生"])和 utterance(字符串)

processed.en

  • description:字符串,对话描述
  • utterances:字符串列表,患者和医生之间的对话

processed.zh

  • utterances:字符串列表,患者和医生之间的对话

数据分割

  • 原始数据

    • en:229674 个示例
    • zh:1921127 个示例
  • 处理数据

    • processed.en:
      • train:482 个示例
      • validation:60 个示例
      • test:61 个示例
    • processed.zh:
      • train:2725989 个示例
      • validation:340748 个示例
      • test:340754 个示例

数据集创建

策划理由

医疗对话系统在协助远程医疗方面具有潜力,可以增加医疗服务获取、提高患者护理质量并降低医疗成本。

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

作者声明:

  • 数据从以下网站抓取:
    • MedDialog-EN:从 icliniq.com 和 healthcaremagic.com 抓取
    • MedDialog-CN:从 haodf.com 抓取
  • 所有版权属于相应网站

引用信息

@article{chen2020meddiag, title={MedDialog: a large-scale medical dialogue dataset}, author={Chen, Shu and Ju, Zeqian and Dong, Xiangyu and Fang, Hongchao and Wang, Sicheng and Yang, Yue and Zeng, Jiaqi and Zhang, Ruisi and Zhang, Ruoyu and Zhou, Meng and Zhu, Penghui and Xie, Pengtao}, journal={arXiv preprint arXiv:2004.03329}, year={2020} }

贡献

感谢 @vrindaprabhu 添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
MedDialog数据集的构建基于从多个医疗相关网站收集的真实对话数据。具体而言,中文数据集从haodf.com获取,包含110万对话和400万条语句;英文数据集则从healthcaremagic.com和icliniq.com收集,包含26万对话。这些数据通过网络爬虫技术获取,并经过初步处理以确保对话的完整性和一致性。数据集的构建旨在支持医疗对话系统的研究,特别是封闭领域的问答任务。
使用方法
MedDialog数据集可用于多种自然语言处理任务,尤其是封闭领域的问答任务。用户可以通过访问数据集的GitHub仓库或HuggingFace页面下载数据,并根据提供的配置文件选择所需的语言和数据格式。数据集的结构清晰,用户可以轻松提取对话中的关键信息,如对话ID、URL、说话者身份及语句内容。此外,数据集还提供了预处理版本,便于直接用于模型训练和评估。
背景与挑战
背景概述
MedDialog数据集由UCSD-AI4H团队创建,旨在为医疗对话系统提供大规模的对话数据支持。该数据集包含两个主要版本:中文版和英文版,分别涵盖了110万和26万条医患对话。这些对话数据来源于haodf.com、healthcaremagic.com和icliniq.com等医疗平台,涵盖了丰富的医患交流场景。数据集的创建旨在推动医疗对话系统的研究,特别是在远程医疗、患者护理质量提升和医疗成本降低等方面。通过提供高质量的对话数据,MedDialog为医疗领域的自然语言处理研究提供了宝贵的资源,推动了相关技术的进步。
当前挑战
MedDialog数据集在构建过程中面临多项挑战。首先,数据来源的多样性和版权问题使得数据收集和处理变得复杂,尤其是在确保数据合法性和隐私保护方面。其次,医疗对话的特殊性要求数据集在语言表达、专业术语和对话结构上具备高度的准确性和一致性,这对数据清洗和标注提出了较高要求。此外,医疗对话系统在实际应用中需应对语言多样性、文化差异和潜在的偏见问题,这些挑战需要在数据集的使用和模型训练中得到充分考虑。最后,数据集的持续扩展和更新也是一个重要挑战,以确保其能够反映医疗对话的最新动态和多样性。
常用场景
经典使用场景
MedDialog数据集在医疗对话系统中具有广泛的应用,尤其是在构建智能问答系统和医疗咨询助手方面。通过分析医生与患者之间的对话,该数据集能够帮助模型理解医疗场景中的语言模式和专业术语,从而提升对话系统的准确性和自然度。
解决学术问题
MedDialog数据集为研究者提供了一个大规模的医疗对话语料库,解决了医疗领域中对话数据稀缺的问题。通过该数据集,研究者可以深入探讨医疗对话中的语言特征、信息传递模式以及医患互动的复杂性,推动医疗对话系统的学术研究。
实际应用
在实际应用中,MedDialog数据集可用于开发智能医疗助手,帮助患者获取初步的医疗建议,减轻医生的工作负担。此外,该数据集还可用于训练医疗问答系统,提升其在特定疾病诊断、治疗建议等方面的表现,从而提高医疗服务的效率和质量。
数据集最近研究
最新研究方向
在医疗对话系统领域,MedDialog数据集因其大规模的对话数据和多语言支持而备受关注。该数据集的最新研究方向主要集中在利用深度学习模型,如BERT等,进行医疗问答系统的开发与优化。通过分析医生与患者之间的对话,研究者们致力于提升医疗问答系统的准确性和实用性,以期在远程医疗和智能辅助诊断中发挥更大作用。此外,数据集的多语言特性也为跨文化医疗对话系统的研究提供了宝贵的资源,推动了全球医疗服务的智能化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作