MEDEC Dataset

github2024-12-31 更新2025-01-03 收录

下载链接：

https://github.com/abachaa/MEDEC

下载链接

链接失效反馈

官方服务：

资源简介：

MEDEC是第一个用于临床笔记中医疗错误检测和纠正的数据集。它包括来自MS和UW集合的3,848个临床文本，涵盖五种类型的错误（诊断、管理、治疗、药物治疗和病原体）。训练集包含2,189个MS文本，MS验证集包含574个临床文本，UW验证集包含160个临床文本，MS测试集包含597个MS文本，UW测试集包含328个UW文本。每个临床文本要么是正确的，要么包含一个错误。任务包括预测错误标志、提取包含错误的句子以及生成纠正后的句子。

MEDEC is the first dataset dedicated to medical error detection and correction in clinical notes. It comprises 3,848 clinical texts sourced from the MS and UW collections, covering five error categories: diagnosis, management, treatment, medication, and pathogen. The training set contains 2,189 MS texts, the MS validation set includes 574 clinical texts, the UW validation set has 160 clinical texts, the MS test set encompasses 597 MS texts, and the UW test set holds 328 UW texts. Each clinical text is either free of errors or contains a medical error. The associated tasks include predicting error flags, extracting sentences that contain errors, and generating corrected sentences.

创建时间：

2024-12-04

原始信息汇总

MEDEC 数据集概述

数据集简介

MEDEC 是首个用于临床笔记中医疗错误检测与纠正的数据集。该数据集包含来自 MS 和 UW 集合的 3,848 篇临床文本，涵盖五种错误类型（诊断、管理、治疗、药物治疗和病原体）。

数据集组成

训练集：包含 2,189 篇 MS 文本。
MS 验证集：包含 574 篇临床文本。
UW 验证集：包含 160 篇临床文本。
MS 测试集：包含 597 篇 MS 文本。
UW 测试集：包含 328 篇 UW 文本。

任务描述

每篇临床文本要么是正确的，要么包含一个错误。任务包括：

错误标记预测：预测文本是否包含错误（1：包含错误，0：无错误）。
错误句子提取：对于标记为错误的文本，提取包含错误的句子。
纠正句子生成：生成纠正后的句子。

数据获取

MEDEC-MS 集合：可通过 MEDEC-MS Collection 获取训练集、验证集和测试集。
MEDEC-UW 集合：需发送邮件至 medec-uw@googlegroups.com 获取 UW 数据使用协议（DUA），以访问 UW 验证集和测试集。

共享任务

MEDEC 数据集首次用于医疗错误检测与纠正的共享任务：MEDIQA-CORR @ NAACL-ClinicalNLP 2024。

网站：MEDIQA-CORR
共享任务论文：MEDIQA-CORR Shared Task Paper
GitHub：MEDIQA-CORR-2024

评估

评估指标和脚本可通过 MEDIQA-CORR-2024 Evaluation 获取。

引用

bibtex @article{medec, author = {Asma {Ben Abacha} and Wen-wai Yim and Yujuan Fu and Zhaoyi Sun and Meliha Yetisgen and Fei Xia and Thomas Lin}, title = {MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes}, journal = {CoRR}, eprinttype = {arXiv}, url = {https://arxiv.org/pdf/2412.19260}, year = {2024} }

联系方式

Asma Ben Abacha (abenabacha at microsoft dot com)
Wen-wai Yim (yimwenwai at microsoft dot com)

搜集汇总

数据集介绍

构建方式

MEDEC数据集作为首个专注于临床笔记中医疗错误检测与校正的基准数据集，其构建过程严谨且系统化。数据集涵盖了来自MS和UW两大医疗系统的3,848份临床文本，涉及诊断、管理、治疗、药物治疗和病原体五大类错误。数据集的划分包括训练集、验证集和测试集，分别包含2,189份MS文本、574份MS验证文本、160份UW验证文本、597份MS测试文本和328份UW测试文本。每份文本均标注了是否存在错误，并进一步要求对错误文本进行错误句子的提取与校正。

使用方法

使用MEDEC数据集时，研究者首先需下载MS数据集，并通过邮件申请获取UW数据集的使用权限。数据集的主要任务包括错误标记、错误句子提取与校正。研究者可利用该数据集训练和评估模型在医疗错误检测与校正任务中的表现。数据集还提供了详细的评估脚本与指标，帮助研究者进行模型性能的量化分析。此外，数据集已被用于MEDIQA-CORR共享任务，为相关研究提供了丰富的参考与对比数据。

背景与挑战

背景概述

MEDEC数据集是首个专注于临床笔记中医疗错误检测与校正的公开基准数据集，由Asma Ben Abacha等研究人员于2024年创建。该数据集涵盖了来自MS和UW两个医疗系统的3,848份临床文本，涉及诊断、管理、治疗、药物治疗和病原体等五类错误。MEDEC的构建旨在评估大语言模型（LLMs）在医疗文本验证与校正中的能力，填补了该领域的研究空白。数据集不仅用于MEDIQA-CORR共享任务，还通过对比实验揭示了LLMs与医疗医生在错误检测与校正任务中的性能差距，为未来研究提供了重要参考。

当前挑战

MEDEC数据集在解决医疗错误检测与校正领域问题时面临多重挑战。首先，医疗文本的复杂性和专业性要求模型具备深厚的医学知识和推理能力，而现有LLMs在这一任务中仍难以完全匹配医生的表现。其次，数据集的构建过程中，如何确保错误标注的准确性和一致性是一大难题，尤其是在涉及多种错误类型和不同医疗系统的文本时。此外，数据集的规模相对有限，可能限制了模型的泛化能力。最后，评估指标的设计也面临挑战，如何更全面地衡量模型在错误检测与校正中的表现仍需进一步探索。

常用场景

经典使用场景

MEDEC数据集在医学错误检测与校正领域具有广泛的应用，特别是在临床笔记的自动化处理中。该数据集通过提供包含五种常见错误类型的临床文本，为研究人员和开发者提供了一个标准化的基准，用于训练和评估模型在医学错误检测与校正任务中的表现。其经典使用场景包括在自然语言处理（NLP）模型中集成医学知识，以自动识别和修正临床笔记中的错误，从而提高医疗文档的准确性和可靠性。

解决学术问题

MEDEC数据集解决了医学文本处理中的关键学术问题，特别是在错误检测与校正方面。通过提供大量标注的临床文本，该数据集为研究人员提供了一个可靠的基准，用于评估和比较不同模型在医学错误检测与校正任务中的性能。这不仅推动了医学NLP领域的研究进展，还为开发更智能的医疗辅助工具提供了数据支持，有助于减少医疗错误，提高患者安全。

实际应用

在实际应用中，MEDEC数据集被广泛用于开发智能医疗系统，特别是那些涉及临床笔记自动处理的系统。通过利用该数据集，医疗机构可以部署自动化工具，实时检测和修正临床文档中的错误，从而减少人为错误，提高医疗服务的质量和效率。此外，该数据集还可用于培训医疗专业人员，帮助他们识别和纠正常见的医学错误，进一步提升临床实践水平。

数据集最近研究