Intention and Factuality Annotated Medical Incident Report Corpus

github2023-11-03 更新2024-05-31 收录

下载链接：

https://github.com/HongkuanZhang/IFMIR-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含日语医疗事故报告（MIRs）语料库以及用于访问和生成与LREC 2020论文相关的目标标注报告的脚本，用于MIRs的信息提取。医疗事故报告（MIRs）记录了医疗事故中发生的情况，主要描述了医生意图给予的药物和实际给予的药物之间的差异，这对于理解医疗事故的原因和避免未来类似事件至关重要。

This dataset comprises a corpus of Japanese Medical Incident Reports (MIRs) along with scripts designed for accessing and generating targeted annotated reports related to the LREC 2020 paper, utilized for information extraction from MIRs. Medical Incident Reports (MIRs) document the occurrences within medical incidents, primarily detailing the discrepancies between the medications intended to be administered by physicians and those actually administered. This information is crucial for understanding the causes of medical incidents and preventing similar future occurrences.

创建时间：

2019-12-01

原始信息汇总

数据集概述

数据集名称

Intention and Factuality Annotated Medical Incident Report Corpus

数据集内容

该数据集包含日本医疗事故报告（MIRs）的语料库，以及用于访问和生成与LREC 2020论文相关的目标标注报告的脚本。数据集主要关注医疗事故报告中的意图和事实性，以及药物实体和实体关系。

数据集用途

数据集用于信息提取，特别是识别临床医生的意图和药物的事实性，以理解医疗事故的原因并预防未来类似事件。

数据集结构

结构化部分：包含医疗事故报告的分类部分。
非结构化文本部分：描述了药物的预期给予和实际给予情况。

数据集标注

意图和事实性标注：识别临床医生的意图和药物的事实性。
药物实体和实体关系标注：标注药物实体及其关系。

数据集规模

数据集包含349份日本医疗事故报告的标注。

数据集获取方式

下载MIRs：从日本质量医疗保健委员会的事故案例搜索页面下载指定月份的MIRs的csv文件。
生成标注文件：使用generate-txt.py脚本从下载的MedicalReportPub.csv文件生成标注目标文件（.txt文件）。
可视化标注数据：使用BRAT工具可视化标注数据，需要.txt和对应的.ann文件。

数据集使用工具

BRAT工具：用于标注数据的视觉化，版本为v1.3 Crunchy Frog。

数据集联系方式

联系邮箱：zhang-hongkuan@a.mbox.nagoya-u.ac.jp

搜集汇总

数据集介绍

构建方式

该数据集的构建基于日本医疗事故报告（MIRs），这些报告记录了医疗事故中的关键信息。数据集的核心在于对医疗事故报告中**临床意图**和**药物事实性**的标注，同时还包括**药物实体**及其**关系**的标注。研究者从日本医疗质量委员会（JQ）的案例搜索页面下载了特定月份的MIRs，并通过脚本生成用于标注的文本文件。标注过程分为试点标注和最终标注两个阶段，分别涉及49份和300份报告。标注工具采用了BRAT，以确保标注的可视化和一致性。

特点

该数据集的特点在于其专注于医疗事故报告中的意图和事实性分析，这在医疗领域具有重要的实践意义。数据集不仅标注了临床意图和药物事实性，还详细标注了药物实体及其关系，为研究者提供了丰富的语义信息。此外，数据集的构建基于真实的医疗事故报告，确保了数据的真实性和可靠性。标注过程采用了BRAT工具，使得标注结果具有高度的可视化和可解释性，便于后续的分析和应用。

使用方法

使用该数据集时，首先需要从日本医疗质量委员会的案例搜索页面下载特定月份的MIRs文件（格式为CSV）。随后，通过提供的Python脚本生成用于标注的文本文件，并将其放置在指定的输出路径中。标注工具BRAT用于可视化标注结果，用户可以通过浏览器查看标注内容。数据集的使用要求安装Pandas库和BRAT工具，并确保运行环境为macOS或Linux系统。通过这一流程，用户可以高效地进行医疗事故报告的意图和事实性分析，并利用标注结果进行进一步的研究。

背景与挑战

背景概述

《Intention and Factuality Annotated Medical Incident Report Corpus》数据集由日本医疗事故报告（MIRs）构成，旨在通过标注医疗事故报告中的意图和事实性信息，帮助理解医疗事故的根本原因。该数据集由日本名古屋大学的研究团队于2020年发布，并在LREC 2020会议上首次公开。数据集的核心研究问题聚焦于从医疗事故报告中提取关键信息，特别是临床医生的意图与实际用药之间的差异。通过对349份日本医疗事故报告的标注，该数据集为医疗信息提取领域提供了重要的研究基础，推动了医疗事故预防和医疗质量提升的研究。

当前挑战

该数据集在构建过程中面临多重挑战。首先，医疗事故报告通常包含结构化和非结构化文本，如何准确识别和标注临床医生的意图与实际用药之间的差异是一个复杂的问题。其次，数据集的标注过程需要高度专业化的医学知识，以确保标注的准确性和一致性。此外，由于原始报告为日文，语言处理和翻译的准确性也对数据集的构建提出了挑战。最后，数据集的规模相对较小，可能限制了其在更广泛场景中的应用。这些挑战不仅影响了数据集的构建，也为后续研究提供了改进的方向。

常用场景

经典使用场景

在医疗安全领域，Intention and Factuality Annotated Medical Incident Report Corpus数据集被广泛应用于分析医疗事故报告中的意图与事实性。通过标注医疗事故报告中的药物实体及其关系，该数据集为研究者提供了一个深入理解医疗事故成因的工具。特别是在药物误用或错误给药的情况下，该数据集能够帮助识别临床医生的意图与实际操作之间的差异，从而为预防类似事故提供数据支持。

衍生相关工作

基于该数据集，研究者开发了多种信息提取和自然语言处理模型，用于自动化分析医疗事故报告。例如，一些研究利用该数据集训练深度学习模型，以识别报告中的药物实体及其关系，并自动标注意图与事实性。此外，该数据集还催生了一系列关于医疗事故预防与管理的学术论文，进一步推动了医疗安全领域的研究进展。

数据集最近研究