bigbio/n2c2_2011

Name: bigbio/n2c2_2011
Creator: bigbio
Published: 2022-12-22 15:45:53
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/n2c2_2011

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en bigbio_language: - English license: other multilinguality: monolingual bigbio_license_shortname: DUA pretty_name: n2c2 2011 Coreference homepage: https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/ bigbio_pubmed: False bigbio_public: False bigbio_tasks: - COREFERENCE_RESOLUTION --- # Dataset Card for n2c2 2011 Coreference ## Dataset Description - **Homepage:** https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/ - **Pubmed:** False - **Public:** False - **Tasks:** COREF The i2b2/VA corpus contained de-identified discharge summaries from Beth Israel Deaconess Medical Center, Partners Healthcare, and University of Pittsburgh Medical Center (UPMC). In addition, UPMC contributed de-identified progress notes to the i2b2/VA corpus. This dataset contains the records from Beth Israel and Partners. The i2b2/VA corpus contained five concept categories: problem, person, pronoun, test, and treatment. Each record in the i2b2/VA corpus was annotated by two independent annotators for coreference pairs. Then the pairs were post-processed in order to create coreference chains. These chains were presented to an adjudicator, who resolved the disagreements between the original annotations, and added or deleted annotations as necessary. The outputs of the adjudicators were then re-adjudicated, with particular attention being paid to duplicates and enforcing consistency in the annotations. ## Citation Information ``` @article{uzuner2012evaluating, author = { Uzuner, Ozlem and Bodnari, Andreea and Shen, Shuying and Forbush, Tyler and Pestian, John and South, Brett R }, title = "{Evaluating the state of the art in coreference resolution for electronic medical records}", journal = {Journal of the American Medical Informatics Association}, volume = {19}, number = {5}, pages = {786-791}, year = {2012}, month = {02}, issn = {1067-5027}, doi = {10.1136/amiajnl-2011-000784}, url = {https://doi.org/10.1136/amiajnl-2011-000784}, eprint = {https://academic.oup.com/jamia/article-pdf/19/5/786/17374287/19-5-786.pdf}, } ```

语言：英语大型生物医学语言库语言：英语许可协议：其他多语言属性：单语言大型生物医学语言库短许可名称：DUA 规范名称：n2c2 2011共指消解项目主页：https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/ 大型生物医学语言库PubMed关联：否大型生物医学语言库公开状态：否大型生物医学语言库关联任务：共指消解（COREFERENCE_RESOLUTION） # n2c2 2011共指消解数据集卡片 ## 数据集说明 - **项目主页**：https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/ - **PubMed关联**：否 - **公开状态**：否 - **任务**：共指消解（COREF） i2b2/VA语料库涵盖了来自贝斯以色列女执事医疗中心、伙伴医疗保健集团以及匹兹堡大学医学中心（University of Pittsburgh Medical Center, UPMC）的去标识化出院小结。此外，匹兹堡大学医学中心还为该语料库提供了去标识化的病程记录。本数据集仅包含来自贝斯以色列女执事医疗中心与伙伴医疗保健集团的病历记录。 i2b2/VA语料库共包含五类概念范畴：病症（problem）、实体（person）、代词（pronoun）、检查（test）以及治疗方案（treatment）。语料库中的每条病历记录均由两名独立标注员针对共指对进行标注。随后，标注人员对这些共指对进行后处理，以构建共指链。随后将共指链提交至仲裁员，由其解决原始标注中的分歧，并根据需要增删标注内容。最后，仲裁员的输出结果将再次进行仲裁，重点关注重复标注问题，并确保标注结果的一致性。 ## 引用信息 @article{uzuner2012evaluating, author = { Uzuner, Ozlem and Bodnari, Andreea and Shen, Shuying and Forbush, Tyler and Pestian, John and South, Brett R }, title = "{Evaluating the state of the art in coreference resolution for electronic medical records}", journal = "Journal of the American Medical Informatics Association", volume = "19", number = "5", pages = "786-791", year = "2012", month = "02", issn = "1067-5027", doi = "10.1136/amiajnl-2011-000784", url = "https://doi.org/10.1136/amiajnl-2011-000784", eprint = "https://academic.oup.com/jamia/article-pdf/19/5/786/17374287/19-5-786.pdf", }

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: 其他
多语言性: 单语
许可证简称: DUA
名称: n2c2 2011 Coreference
主页: https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/
是否公开: 否
是否PubMed可用: 否

数据集描述

任务: 共指消解 (COREFERENCE_RESOLUTION)
数据来源: 包含Beth Israel Deaconess Medical Center和Partners Healthcare的出院总结记录，以及UPMC的进展记录。
注释过程: 每条记录由两名独立注释者标注共指对，后经处理形成共指链，并由仲裁者解决注释差异。

引用信息

@article{uzuner2012evaluating, author = {Uzuner, Ozlem and Bodnari, Andreea and Shen, Shuying and Forbush, Tyler and Pestian, John and South, Brett R}, title = {Evaluating the state of the art in coreference resolution for electronic medical records}, journal = {Journal of the American Medical Informatics Association}, volume = {19}, number = {5}, pages = {786-791}, year = {2012}, month = {02}, issn = {1067-5027}, doi = {10.1136/amiajnl-2011-000784}, url = {https://doi.org/10.1136/amiajnl-2011-000784}, eprint = {https://academic.oup.com/jamia/article-pdf/19/5/786/17374287/19-5-786.pdf}, }

搜集汇总

数据集介绍

构建方式

在临床自然语言处理领域，构建高质量的标注数据集对于推动指代消解技术发展至关重要。n2c2 2011 Coreference数据集源自i2b2/VA语料库，该语料库整合了来自贝斯以色列女执事医疗中心、合作伙伴医疗保健机构以及匹兹堡大学医学中心的去标识化出院小结，其中贝斯以色列和合作伙伴机构的记录被纳入本数据集。数据构建过程严谨，每条记录均由两位独立标注员针对问题、人员、代词、检查和治疗五类概念进行指代对标注，随后通过后处理形成指代链。这些指代链交由裁决员处理，以解决原始标注间的分歧，并根据需要增删标注，最终经过二次裁决以确保标注的一致性与准确性。

特点

该数据集在医学信息学领域具有显著特色，其核心在于专注于电子病历中的指代消解任务。数据集涵盖丰富的临床文本类型，包括出院小结等，文本内容涉及多种医学术语与实体类别。标注体系细致区分了五类核心概念，为模型训练提供了明确的结构化目标。数据经过多重人工校验与裁决，确保了标注质量的高可靠性与一致性，为评估指代消解前沿技术提供了权威基准。

使用方法

研究人员可利用该数据集进行指代消解模型的训练与评估。典型工作流程包括数据加载、预处理、模型构建、训练及性能验证。鉴于数据涉及敏感医疗信息，使用者需严格遵守数据使用协议，确保合规访问。在模型开发中，可依据标注的指代链信息设计学习目标，通过评估指标如MUC、B³、CEAF等来衡量模型在识别医学文本中指代关系上的效能，从而推动临床自然语言处理技术的进步。

背景与挑战

背景概述

在临床自然语言处理领域，电子病历文本中的指代消解是提升信息提取准确性的关键环节。n2c2 2011 Coreference数据集由哈佛医学院生物医学信息学中心等机构于2011年构建，旨在评估电子病历中实体指代关系的解析技术。该数据集基于i2b2/VA语料库，包含来自贝斯以色列女执事医疗中心和合作伙伴医疗中心的去标识化出院摘要，标注了问题、人员、代词、检查和治疗五类概念的共指链。通过双重独立标注与裁决流程，该资源为医疗文本的语义连贯性分析提供了基准，推动了临床决策支持系统的发展。

当前挑战

该数据集致力于解决电子病历中复杂指代消解的挑战，包括医疗术语的多样性、缩写与代词的模糊性，以及跨句子的长距离依赖关系。在构建过程中，挑战主要体现在标注一致性维护上，由于医疗文本涉及专业概念和叙事结构，独立标注者间易出现分歧，需通过多轮裁决与后处理来统一标准，同时确保去标识化数据不泄露患者隐私，这增加了标注流程的复杂度与时间成本。

常用场景

经典使用场景

在临床自然语言处理领域，n2c2 2011 Coreference数据集为指代消解任务提供了标准化的评估基准。该数据集源自美国多家医疗中心的出院小结和病程记录，经过双重独立标注与专家裁决，构建了高质量的共指链标注。研究者通常利用该数据集训练和验证机器学习模型，以识别医疗文本中实体间的指代关系，例如代词与具体医疗概念之间的关联，从而提升电子病历的语义理解能力。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作。例如，Uzuner等人2012年发表的论文系统评估了当时共指消解技术在电子病历上的性能，确立了该领域的评估框架。后续研究在此基础上提出了基于规则、统计机器学习及深度学习的改进模型，如利用图神经网络捕捉医疗实体间的复杂指代关系。这些工作共同推动了医疗共指消解从传统方法向端到端智能模型的演进。

数据集最近研究