bigbio/n2c2_2009

Name: bigbio/n2c2_2009
Creator: bigbio
Published: 2022-12-22 15:45:50
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/n2c2_2009

下载链接

链接失效反馈

官方服务：

资源简介：

n2c2 2009 Medications数据集专注于从临床记录中识别药物及其相关信息，包括药物的名称、剂量、给药方式、频率、持续时间、给药原因等。该数据集是第三i2b2临床记录自然语言处理挑战的一部分，旨在扩展信息提取到关系提取，要求提取药物及药物相关信息，并确定哪些药物属于哪些药物相关细节。数据集的处理包括处理由于众包注释导致的各种异常情况。

The n2c2 2009 Medications Dataset focuses on identifying medications and their associated information from clinical records, including drug names, dosages, administration routes, frequencies, durations, and reasons for administration, etc. This dataset is part of the 3rd i2b2 Clinical Record Natural Language Processing Challenge, which aims to extend information extraction to relation extraction, requiring the extraction of medications and medication-related information as well as determining which medications correspond to which medication-related details. Dataset processing involves handling various anomalies caused by crowdsourced annotations.

提供机构：

bigbio

原始信息汇总

数据集概述：n2c2 2009 Medications

基本信息

语言: 英语
许可证: 其他（DUA）
多语言性: 单语
数据集名称: n2c2 2009 Medications
主页: https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/
是否公开: 否
是否包含PubMed数据: 是
任务类型: 命名实体识别（NER）

数据集描述

目标: 从出院总结中识别药物及其剂量、给药方式、频率、持续时间、给药原因。
详细信息:
- 药物信息提取: 包括药物名称、剂量、给药方式、频率、持续时间、给药原因、确定性、事件、时间性和列表/叙述形式。
- 任务要求: 系统需提取每种药物提及的相应文本，并根据两行窗口内的信息创建“条目”。
- 数据处理: 由于数据集注释是众包的，包含多种违规情况，通过异常捕获或条件语句在数据加载器中处理。

引用信息

@article{DBLP:journals/jamia/UzunerSC10, author = {Ozlem Uzuner and Imre Solti and Eithon Cadag}, title = {Extracting medication information from clinical text}, journal = {J. Am. Medical Informatics Assoc.}, volume = {17}, number = {5}, pages = {514--518}, year = {2010}, url = {https://doi.org/10.1136/jamia.2010.003947}, doi = {10.1136/jamia.2010.003947} }

搜集汇总

数据集介绍

构建方式

在临床信息抽取领域，n2c2 2009 Medications数据集源自第三届i2b2研讨会，专注于从出院摘要中提取药物相关信息。该数据集通过众包方式标注，涵盖了药物名称、剂量、给药途径、频率、持续时间、用药原因、确定性、事件状态、时间性以及列表或叙述结构等十个关键字段。标注过程中，若相关字段在药物提及的两行窗口内未明确表述，则标记为“未提及”，并保留偏移量未指定状态，确保了标注的严谨性与完整性。

特点

该数据集以英文临床文本为基础，专注于命名实体识别任务，具有单语特性。其核心特点在于全面覆盖药物管理的多维信息，不仅提取实体，还涉及关系抽取，要求系统将药物与相关细节进行关联。数据集标注虽经众包处理，可能存在不一致性，但通过数据加载器中的异常捕获和条件语句进行了有效处理，提升了数据的可用性与可靠性，为临床自然语言处理研究提供了丰富而细致的标注资源。

使用方法

在临床自然语言处理研究中，n2c2 2009 Medications数据集主要用于训练和评估信息抽取模型。使用者可通过HuggingFace平台访问该数据集，利用其标注的实体和关系进行命名实体识别任务的开发。数据加载器已集成异常处理机制，能自动修正标注中的不一致问题，确保模型训练的稳定性。研究人员可依据任务需求，提取药物及其相关属性，推动临床文本自动化分析技术的发展，但需注意数据集受数据使用协议限制，非公开访问。

背景与挑战

背景概述

在临床信息学领域，电子健康记录的文本挖掘是提升医疗决策质量的关键。n2c2 2009药物数据集诞生于2009年，由哈佛医学院生物医学信息学中心主导的i2b2项目创建，核心研究聚焦于从出院小结中自动提取药物及其相关细节，如剂量、频率和原因等。这一工作推动了临床自然语言处理从简单命名实体识别向复杂关系抽取的演进，为后续药物信息标准化和临床决策支持系统奠定了重要基础，显著影响了医疗人工智能的发展轨迹。

当前挑战

该数据集旨在解决临床文本中药物信息提取的复杂性问题，挑战在于识别并关联药物名称、剂量、频率等十个细粒度属性，这些属性常以非结构化或隐含方式分布于文本中，对模型的语义理解和上下文推理能力提出极高要求。构建过程中，由于采用众包标注，数据存在不一致性，如标注与原始文本的微小偏差（例如标点符号差异），导致实体匹配困难，需通过异常处理机制来保证数据质量，这增加了数据清洗和预处理的复杂度。

常用场景

经典使用场景

在临床自然语言处理领域，n2c2 2009 Medications数据集作为一项经典基准，主要用于药物信息提取任务。该数据集聚焦于从出院小结中识别药物名称、剂量、给药途径、频率、持续时间、用药原因等关键实体及其关联关系，为构建自动化医疗信息抽取系统提供了标准化的评估框架。研究者通过该数据集训练和验证命名实体识别与关系抽取模型，旨在提升从非结构化临床文本中结构化药物信息的能力，从而支持临床决策与医疗管理。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，例如基于条件随机场与支持向量机的混合模型、深度学习框架下的双向长短时记忆网络结合条件随机场方法，以及注意力机制与图神经网络在药物关系抽取中的应用。这些研究不仅提升了药物信息提取的准确性与鲁棒性，还推动了跨领域迁移学习、少样本学习等技术在临床文本处理中的探索，进一步丰富了医疗自然语言处理的方法论体系。

数据集最近研究