pensieves/mimicause
收藏Hugging Face2022-03-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pensieves/mimicause
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
pretty_name: MIMICause
---
# Dataset Card for "MIMICause"
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks](#supported-tasks)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Additional Information](#additinal-information)
- [Citation Information](#citation-information)
## Dataset Description
- **Homepage:** [https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/](https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/)
- **Paper:** [MIMICause: Representation and automatic extraction of causal relation types from clinical notes](https://arxiv.org/abs/2110.07090)
- **Size of downloaded dataset files:** 333.4 KB
- **Size of the generated dataset:** 491.2 KB
- **Total amount of disk used:** 668.2 KB
### Dataset Summary
MIMICause Dataset is a dataset for representation and automatic extraction of causal relation types from clinical notes. The MIMICause dataset requires manual download of the mimicause.zip file from the **Community Annotations Downloads** section of the n2c2 dataset on the [Harvard's DBMI Data Portal](https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/) after signing their agreement forms, which is a quick and easy procedure.
The dataset has 2714 samples having both explicit and implicit causality in which entities are in the same sentence or different sentences. The nine semantic causal relations (with directionality) between entitities E1 and E2 in a text snippets are -- (1) Cause(E1,E2) (2) Cause(E2,E1) (3) Enable(E1,E2) (4) Enable(E2,E1) (5) Prevent(E1,E2) (6) Prevent(E2,E1) (7) Hinder(E1,E2) (8) Hinder(E2,E1) (9) Other.
### Supported Tasks
Causal relation extraction between entities expressed implicitly or explicitly, in single or across multiple sentences.
## Dataset Structure
### Data Instances
An example of a data sample looks as follows:
```
{
"E1": "Florinef",
"E2": "fluid retention",
"Text": "Treated with <e1>Florinef</e1> in the past, was d/c'd due to <e2>fluid retention</e2>.",
"Label": 0
}
```
### Data Fields
The data fields are the same among all the splits.
- `E1`: a `string` value.
- `E2`: a `string` value.
- `Text`: a `large_string` value.
- `Label`: a `ClassLabel` categorical value.
### Data Splits
The original dataset that gets downloaded from the [Harvard's DBMI Data Portal](https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/) have all the data in a single split. The dataset loading provided here through huggingface datasets splits the data into the following train, validation and test splits for convenience.
| name |train|validation|test|
|---------|----:|---------:|---:|
|mimicause| 1953| 489 | 272|
## Additional Information
### Citation Information
```
@inproceedings{khetan-etal-2022-mimicause,
title={MIMICause: Representation and automatic extraction of causal relation types from clinical notes},
author={Vivek Khetan and Md Imbesat Hassan Rizvi and Jessica Huber and Paige Bartusiak and Bogdan Sacaleanu and Andrew Fano},
booktitle ={Findings of the Association for Computational Linguistics: ACL 2022},
month={may},
year={2022},
publisher={Association for Computational Linguistics},
address={Dublin, The Republic of Ireland},
url={},
doi={},
pages={},
}
```
---
license: Apache-2.0协议
pretty_name: MIMICause
---
# "MIMICause" 数据集卡片
## 目录
- [数据集描述](#dataset-description)
- [数据集概述](#dataset-summary)
- [支持任务](#supported-tasks)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [附加信息](#additional-information)
- [引用信息](#citation-information)
## 数据集描述
- **主页**:[https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/](https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/)
- **论文**:[MIMICause:从临床笔记中抽取因果关系类型的表示与自动方法](https://arxiv.org/abs/2110.07090)
- **下载的数据集文件大小**:333.4 KB
- **生成的数据集大小**:491.2 KB
- **总磁盘占用空间**:668.2 KB
### 数据集概述
MIMICause数据集是用于从临床笔记中表示并自动抽取因果关系类型的专用数据集。使用该数据集前,用户需先签署相关协议,随后可从哈佛DBMI数据门户(Harvard's DBMI Data Portal)的n2c2数据集的**社区注释下载**板块手动下载`mimicause.zip`文件,整个流程简便快捷。
该数据集共包含2714个样本,涵盖显式与隐式两类因果关系,其中实体可位于同一句或不同句子中。文本片段内实体E1与E2之间存在9种带方向性的语义因果关系,具体如下:
1. 因果关系(Cause(E1,E2))
2. 因果关系(Cause(E2,E1))
3. 促成关系(Enable(E1,E2))
4. 促成关系(Enable(E2,E1))
5. 阻碍关系(Prevent(E1,E2))
6. 阻碍关系(Prevent(E2,E1))
7. 妨碍关系(Hinder(E1,E2))
8. 妨碍关系(Hinder(E2,E1))
9. 其他
### 支持任务
支持对单句或跨句中显式或隐式表达的实体间因果关系进行抽取。
## 数据集结构
### 数据实例
以下为一个数据样本示例:
json
{
"E1": "Florinef",
"E2": "fluid retention",
"Text": "Treated with <e1>Florinef</e1> in the past, was d/c'd due to <e2>fluid retention</e2>.",
"Label": 0
}
### 数据字段
所有数据划分的字段均保持一致:
- `E1`:字符串类型值。
- `E2`:字符串类型值。
- `Text`:长字符串(large_string)类型值。
- `Label`:分类标签(ClassLabel)分类值。
### 数据划分
从哈佛DBMI数据门户下载的原始数据集仅包含单一数据划分。本项目通过Hugging Face 数据集(Hugging Face Datasets)提供的数据集加载接口,为便于使用将数据划分为训练集、验证集与测试集,具体划分如下表所示:
| 数据集名称 | 训练集样本数 | 验证集样本数 | 测试集样本数 |
|------------|-------------:|-------------:|-------------:|
| mimicause | 1953 | 489 | 272 |
## 附加信息
### 引用信息
bibtex
@inproceedings{khetan-etal-2022-mimicause,
title={MIMICause: Representation and automatic extraction of causal relation types from clinical notes},
author={Vivek Khetan and Md Imbesat Hassan Rizvi and Jessica Huber and Paige Bartusiak and Bogdan Sacaleanu and Andrew Fano},
booktitle ={Findings of the Association for Computational Linguistics: ACL 2022},
month={may},
year={2022},
publisher={Association for Computational Linguistics},
address={Dublin, The Republic of Ireland},
url={},
doi={},
pages={},
}
提供机构:
pensieves
原始信息汇总
数据集概述:MIMICause
数据集描述
数据集总结
- 名称:MIMICause
- 目的:用于从临床笔记中自动提取因果关系类型。
- 下载大小:333.4 KB
- 生成数据集大小:491.2 KB
- 总磁盘使用量:668.2 KB
- 样本数量:2714
- 因果关系类型:9种,包括Cause, Enable, Prevent, Hinder, Other等。
支持的任务
- 任务:因果关系提取,涉及实体间隐式或显式的因果关系,可能跨越单句或多句。
数据集结构
数据实例
-
示例结构:
{ "E1": "Florinef", "E2": "fluid retention", "Text": "Treated with <e1>Florinef</e1> in the past, was d/cd due to <e2>fluid retention</e2>.", "Label": 0 }
数据字段
- E1:字符串类型。
- E2:字符串类型。
- Text:大字符串类型。
- Label:分类标签类型。
数据分割
- 原始分割:单个文件。
- Huggingface分割:分为训练集(1953样本)、验证集(489样本)和测试集(272样本)。
附加信息
引用信息
@inproceedings{khetan-etal-2022-mimicause, title={MIMICause: Representation and automatic extraction of causal relation types from clinical notes}, author={Vivek Khetan and Md Imbesat Hassan Rizvi and Jessica Huber and Paige Bartusiak and Bogdan Sacaleanu and Andrew Fano}, booktitle ={Findings of the Association for Computational Linguistics: ACL 2022}, month={may}, year={2022}, publisher={Association for Computational Linguistics}, address={Dublin, The Republic of Ireland}, url={}, doi={}, pages={}, }
搜集汇总
数据集介绍

构建方式
在临床自然语言处理领域,MIMICause数据集的构建体现了对医学文本中因果关系的深度解析。该数据集源自哈佛大学DBMI数据门户的n2c2项目,通过人工下载mimicause.zip文件获取原始数据,并经过专业标注流程。构建过程聚焦于从临床笔记中提取2714个样本,涵盖同一句子或跨句子的实体,系统标注了九种语义因果关系类型,包括因果、促成、阻碍等方向性关系,确保了数据在医学语境下的准确性与代表性。
特点
MIMICause数据集的特点在于其专注于临床文本中的复杂因果关系识别。数据集包含显性与隐性因果关系的样本,实体可位于相同或不同句子中,这模拟了真实医疗记录的叙述结构。九种因果关系的分类体系(如Cause、Enable、Prevent等)提供了精细的语义区分,支持方向性分析,增强了模型在医疗推理任务中的适用性。数据集的规模适中,便于实验部署,同时通过标准化的分割(训练、验证、测试集)促进了机器学习模型的公平评估。
使用方法
使用MIMICause数据集时,需首先从哈佛DBMI数据门户签署协议并下载原始文件,随后通过HuggingFace平台加载预处理版本。数据集适用于因果关系提取任务,用户可基于文本片段中的实体E1和E2,预测其间的因果关系标签。典型应用包括训练深度学习模型以自动识别临床笔记中的因果模式,支持医疗决策辅助系统。数据已分割为训练、验证和测试集,便于直接用于模型训练与评估,推动临床自然语言处理研究的进展。
背景与挑战
背景概述
在临床自然语言处理领域,从非结构化的医疗文本中提取因果关联是一项关键任务,对于理解疾病机制、药物反应及治疗决策具有深远意义。MIMICause数据集由哈佛大学医学院生物医学信息学系的研究团队于2022年创建,旨在系统性地表示和自动提取临床笔记中的因果关系类型。该数据集基于MIMIC-III临床数据库,通过精细标注九种语义因果关联,包括原因、促成、阻碍等方向性关系,为医疗因果推理提供了高质量的语言资源。其构建不仅推动了临床文本挖掘技术的发展,也为医疗人工智能模型的可解释性研究奠定了重要基础。
当前挑战
MIMICause数据集面临的挑战主要体现在两个方面:在领域问题层面,临床文本中因果关系的提取需处理复杂的语言现象,如隐含因果表达、跨句关联以及医学术语的歧义性,这要求模型具备深层次的语义理解和上下文推理能力;在构建过程中,标注工作面临巨大困难,包括医学专业知识的高需求、标注一致性的维护,以及从海量临床笔记中筛选和标注高质量样本的耗时性。这些挑战共同制约了数据集的规模扩展与模型性能的进一步提升。
常用场景
经典使用场景
在临床自然语言处理领域,MIMICause数据集为因果关系提取任务提供了关键资源。该数据集主要应用于训练和评估模型,以识别临床文本中实体间的因果关联,涵盖同一句子或跨句子的显性与隐性因果关系。通过标注九种语义关系类型,如Cause、Enable、Prevent等,研究者能够构建精准的模型,解析医疗记录中复杂的因果逻辑,从而支持自动化信息提取系统的开发。
实际应用
在实际医疗场景中,MIMICause数据集的应用显著提升了临床决策支持系统的效能。通过自动提取患者记录中的因果关系,该系统能够辅助医生识别药物副作用、疾病诱因或治疗影响,从而优化诊断流程与治疗方案。此外,该技术还可集成于电子健康记录系统,实现大规模医疗数据的智能分析,为公共卫生研究和个性化医疗提供可靠的数据洞察。
衍生相关工作
基于MIMICause数据集,多项经典研究工作得以衍生,进一步拓展了临床因果关系提取的边界。例如,研究者利用该数据集开发了基于深度学习的多任务模型,以同时处理实体识别与关系分类;另有工作探索了跨语言迁移学习,将英语临床笔记的因果模式应用于其他语种医疗文本。这些成果不仅丰富了自然语言处理领域的理论框架,还为医疗人工智能的实际部署奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



