MediTOD

Name: MediTOD
Creator: 印度理工学院德里分校
Published: 2024-10-18 14:38:22
License: 暂无描述

arXiv2024-10-18 更新2024-10-22 收录

下载链接：

https://github.com/dair-iitd/MediTOD

下载链接

链接失效反馈

官方服务：

资源简介：

MediTOD是由印度理工学院德里分校和IBM研究合作创建的一个英语医疗对话数据集，旨在帮助医生收集患者病史、辅助诊断和治疗选择。该数据集包含22,503条标注对话，涵盖了自然语言理解、策略学习和自然语言生成等子任务。数据集通过与医生合作，采用问卷式标注框架，确保高质量的全面标注，包括症状及其发作、进展和严重程度等属性。MediTOD的应用领域主要是医疗任务导向对话系统，旨在解决医生过劳和医疗资源不足的问题。

MediTOD is an English medical dialogue dataset co-developed by the Indian Institute of Technology Delhi and IBM Research, designed to help clinicians collect patient medical histories, assist in diagnosis and treatment selection. This dataset contains 22,503 annotated dialogues, covering subtasks such as natural language understanding, policy learning and natural language generation. Developed in collaboration with physicians, it adopts a questionnaire-based annotation framework to ensure high-quality comprehensive annotations including attributes like symptoms and their onset, progression and severity. The main application scenario of MediTOD is medical task-oriented dialogue systems, aiming to address the issues of physician burnout and insufficient medical resources.

提供机构：

印度理工学院德里分校

创建时间：

2024-10-18

原始信息汇总

MediTOD

数据集概述

MediTOD是一个用于医疗历史采集的英语对话数据集，包含全面的注释。

数据结构

raw_data/：包含原始对话及其非规范化注释。
labeling_interface/：包含标注接口代码。
data/：包含MediTOD对话数据。
src：包含训练基线的代码。
metrics：包含计算指标的代码。

参考文献

Fareez, Faiha, Tishya Parikh, Christopher Wavell, Saba Shahab, Meghan Chevalier, Scott Good, Isabella De Blasi et al. "A dataset of simulated patient-physician medical interviews with a focus on respiratory cases." Scientific Data 9, no. 1 (2022): 313.

搜集汇总

数据集介绍

构建方式

MediTOD数据集通过与医生合作，采用问卷调查式的标注方案，专门针对医疗领域进行设计。医疗专业人员根据这一方案创建数据集，并进行高质量的全面标注，捕捉医疗槽位及其属性。数据集的构建过程中，首先收集公开可用的医生-患者对话转录本，然后定义一个综合医疗属性模式（CMAS），并开发基于问卷的标注框架，以CMAS为基础对对话进行标注。标注过程由专业标注人员在医生的监督下完成，确保标注的准确性和一致性。

特点

MediTOD数据集的主要特点在于其全面性和规范性。它不仅包含了医疗槽位（如症状、病史等），还详细记录了这些槽位的属性（如症状的发作时间、持续时间、严重程度等）。此外，数据集中的医疗术语被规范化为统一医学语言系统（UMLS）中的标准概念，确保了数据的一致性和可比性。这些特点使得MediTOD成为研究医疗任务导向对话系统的宝贵资源。

使用方法

MediTOD数据集适用于多种医疗任务导向对话系统的研究任务，包括自然语言理解（NLU）、策略学习（POL）和自然语言生成（NLG）。研究者可以使用该数据集训练和评估模型，特别是在监督学习和少样本学习设置下。数据集的公开资源包括标注数据和标注平台，鼓励研究者进一步丰富和多样化数据集，推动医疗对话系统研究的发展。

背景与挑战

背景概述

MediTOD，一个专注于医疗历史采集的英语对话数据集，由印度理工学院德里分校（IIT Delhi）和IBM Research合作开发。该数据集的创建旨在解决医疗任务导向对话系统（TOD）在收集患者医疗历史、辅助诊断和治疗选择方面的需求，从而减轻医生的工作负担并扩展医疗服务。MediTOD通过与医疗专业人员的紧密合作，设计了一套基于问卷的标注方案，确保数据集的高质量全面标注，涵盖了症状及其发作、进展和严重性等关键属性。这一数据集的发布为自然语言理解、策略学习和自然语言生成等子任务提供了基准，推动了医疗对话系统领域的研究进展。

当前挑战

MediTOD数据集在构建过程中面临多项挑战。首先，医疗对话数据集的隐私法规限制了数据的获取和公开。其次，现有数据集缺乏对医疗槽位及其属性的全面标注，这些标注对于准确诊断至关重要。此外，大多数现有数据集为非英语，限制了其在更广泛研究社区中的应用。在数据集构建过程中，如何确保标注的全面性和准确性，以及如何处理和规范化医疗术语，都是需要克服的难题。这些挑战不仅影响了数据集的质量，也对其在实际应用中的效能提出了考验。

常用场景

经典使用场景

MediTOD数据集的经典使用场景主要集中在医疗任务导向对话系统的开发与评估。该数据集通过模拟医生与患者之间的对话，涵盖了从患者病史采集、诊断辅助到治疗选择等多个环节。研究者可以利用MediTOD进行自然语言理解（NLU）、策略学习（POL）和自然语言生成（NLG）等子任务的模型训练与测试，从而提升医疗对话系统的整体性能。

解决学术问题

MediTOD数据集解决了医疗对话系统研究中常见的数据稀缺和标注不全面的问题。由于医疗数据的隐私性和复杂性，现有的医疗对话数据集往往缺乏详细的标注，尤其是症状及其属性的全面描述。MediTOD通过引入综合医疗属性模式（CMAS），提供了高质量的全面标注，有助于模型更准确地理解和处理医疗对话中的复杂信息，从而推动医疗对话系统在实际应用中的有效性和可靠性。

衍生相关工作

MediTOD数据集的发布催生了一系列相关研究工作，特别是在医疗对话系统的自然语言处理领域。例如，研究者们基于MediTOD开发了多种先进的NLU和NLG模型，这些模型在处理医疗对话中的复杂语义和上下文信息方面表现出色。此外，MediTOD还启发了对多语言医疗对话数据集的研究，以及如何将医疗知识图谱与对话系统相结合，以提升系统的诊断准确性和用户交互体验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集