bigbio/n2c2_2010
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/n2c2_2010
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
bigbio_language:
- English
license: other
multilinguality: monolingual
bigbio_license_shortname: DUA
pretty_name: n2c2 2010 Concepts, Assertions, and Relations
homepage: https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/
bigbio_pubmed: False
bigbio_public: False
bigbio_tasks:
- NAMED_ENTITY_RECOGNITION
- RELATION_EXTRACTION
---
# Dataset Card for n2c2 2010 Concepts, Assertions, and Relations
## Dataset Description
- **Homepage:** https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/
- **Pubmed:** False
- **Public:** False
- **Tasks:** NER,RE
The i2b2/VA corpus contained de-identified discharge summaries from Beth Israel
Deaconess Medical Center, Partners Healthcare, and University of Pittsburgh Medical
Center (UPMC). In addition, UPMC contributed de-identified progress notes to the
i2b2/VA corpus. This dataset contains the records from Beth Israel and Partners.
The 2010 i2b2/VA Workshop on Natural Language Processing Challenges for Clinical Records comprises three tasks:
1) a concept extraction task focused on the extraction of medical concepts from patient reports;
2) an assertion classification task focused on assigning assertion types for medical problem concepts;
3) a relation classification task focused on assigning relation types that hold between medical problems,
tests, and treatments.
i2b2 and the VA provided an annotated reference standard corpus for the three tasks.
Using this reference standard, 22 systems were developed for concept extraction,
21 for assertion classification, and 16 for relation classification.
## Citation Information
```
@article{DBLP:journals/jamia/UzunerSSD11,
author = {
Ozlem Uzuner and
Brett R. South and
Shuying Shen and
Scott L. DuVall
},
title = {2010 i2b2/VA challenge on concepts, assertions, and relations in clinical
text},
journal = {J. Am. Medical Informatics Assoc.},
volume = {18},
number = {5},
pages = {552--556},
year = {2011},
url = {https://doi.org/10.1136/amiajnl-2011-000203},
doi = {10.1136/amiajnl-2011-000203},
timestamp = {Mon, 11 May 2020 23:00:20 +0200},
biburl = {https://dblp.org/rec/journals/jamia/UzunerSSD11.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
```
---
语言:
- 英语
大型生物医学语料库语言:
- 英语
许可协议: 其他
多语言属性: 单语言
bigbio_license_shortname: DUA
展示名称: n2c2 2010 概念、断言与关系
主页: https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/
大型生物医学语料库PubMed关联: 否
大型生物医学语料库公开性: 否
大型生物医学语料库任务:
- 命名实体识别(NAMED_ENTITY_RECOGNITION)
- 关系抽取(RELATION_EXTRACTION)
---
# n2c2 2010 概念、断言与关系数据集卡片
## 数据集描述
- **主页:** https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/
- **PubMed关联:** 否
- **公开性:** 否
- **任务:** 命名实体识别、关系抽取
i2b2/VA语料库收录了来自贝斯以色列女执事医疗中心、伙伴医疗保健集团(Partners Healthcare)以及匹兹堡大学医学中心(UPMC)的去标识化出院小结。此外,匹兹堡大学医学中心(UPMC)还向i2b2/VA语料库提供了去标识化的病程记录。本数据集仅包含来自贝斯以色列女执事医疗中心与伙伴医疗保健集团的相关记录。
2010年i2b2/VA临床记录自然语言处理挑战研讨会共设置三项任务:
1) 概念抽取任务:旨在从患者病历中抽取医学概念;
2) 断言分类任务:旨在为医学问题概念分配断言类型;
3) 关系分类任务:旨在为医学问题、检查项目与治疗手段之间存在的关联分配关系类型。
i2b2与美国退伍军人事务部(VA)为上述三项任务提供了带标注的参考标准语料库。基于该参考标准,研究人员共开发了22套概念抽取系统、21套断言分类系统以及16套关系分类系统。
## 引用信息
@article{DBLP:journals/jamia/UzunerSSD11,
author = {
Ozlem Uzuner and
Brett R. South and
Shuying Shen and
Scott L. DuVall
},
title = {2010 i2b2/VA挑战:临床文本中的概念、断言与关系},
journal = {J. Am. Medical Informatics Assoc.},
volume = {18},
number = {5},
pages = {552--556},
year = {2011},
url = {https://doi.org/10.1136/amiajnl-2011-000203},
doi = {10.1136/amiajnl-2011-000203},
timestamp = {Mon, 11 May 2020 23:00:20 +0200},
biburl = {https://dblp.org/rec/journals/jamia/UzunerSSD11.bib},
bibsource = {dblp计算机科学文献库, https://dblp.org}
}
提供机构:
bigbio
原始信息汇总
n2c2 2010 Concepts, Assertions, and Relations 数据集概述
数据集描述
- 语言: 英语
- 许可证: 其他(DUA)
- 多语言性: 单语
- 名称: n2c2 2010 Concepts, Assertions, and Relations
- 主页: https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/
- 是否公开: 否
- 是否包含PubMed数据: 否
- 任务:
- 命名实体识别(NER)
- 关系抽取(RE)
数据集内容
该数据集包含来自Beth Israel Deaconess Medical Center和Partners Healthcare的出院总结记录。2010 i2b2/VA研讨会的三个任务包括:
- 概念抽取任务:从患者报告中抽取医学概念。
- 断言分类任务:为医学问题概念分配断言类型。
- 关系分类任务:为医学问题、测试和治疗之间的关系分配关系类型。
引用信息
@article{DBLP:journals/jamia/UzunerSSD11, author = {Ozlem Uzuner and Brett R. South and Shuying Shen and Scott L. DuVall}, title = {2010 i2b2/VA challenge on concepts, assertions, and relations in clinical text}, journal = {J. Am. Medical Informatics Assoc.}, volume = {18}, number = {5}, pages = {552--556}, year = {2011}, url = {https://doi.org/10.1136/amiajnl-2011-000203}, doi = {10.1136/amiajnl-2011-000203} }
搜集汇总
数据集介绍

构建方式
在临床自然语言处理领域,n2c2 2010数据集的构建源于i2b2/VA合作项目,旨在推动医疗文本的信息提取技术。该数据集基于来自贝斯以色列女执事医疗中心、合作伙伴医疗机构的去标识化出院小结,以及匹兹堡大学医学中心的进展记录,通过专家标注形成了标准参考语料。标注过程聚焦于三个核心任务:医学概念提取、断言分类及关系分类,为后续系统开发提供了高质量的监督数据基础。
使用方法
研究人员可利用该数据集进行命名实体识别、断言分类和关系提取任务的模型训练与评估。使用前需遵循数据使用协议,确保符合伦理规范;数据通常以标准格式提供,支持直接加载至机器学习框架。通过划分训练集、验证集和测试集,用户可以系统性地开发算法,比较不同方法在临床概念与关系抽取上的效果,进而推动医疗文本分析技术的进步。
背景与挑战
背景概述
在临床信息学领域,电子健康记录的文本挖掘是提升医疗决策质量的关键。n2c2 2010数据集,原名i2b2/VA 2010挑战赛语料,由哈佛医学院生物医学信息学中心(i2b2)与美国退伍军人事务部(VA)于2010年联合创建,核心研究人员包括Özlem Uzuner等。该数据集聚焦于临床文本的自然语言处理,旨在解决医疗概念抽取、断言分类及关系分类三大核心问题,为后续临床文本分析研究奠定了重要基准,显著推动了医疗实体识别与关系提取技术的发展。
当前挑战
该数据集致力于应对临床文本中复杂语义理解的挑战,包括从非结构化医疗报告中精确提取疾病、检验和治疗等实体,并准确判断其断言状态(如存在、不存在)及实体间关系(如治疗-疾病关联)。在构建过程中,挑战主要源于医疗文本的专业性、表述的多样性以及去标识化要求,需跨机构协调数据共享与标注,确保标注一致性与数据隐私保护,这为大规模高质量临床语料库的建立设置了较高门槛。
常用场景
经典使用场景
在临床自然语言处理领域,n2c2_2010数据集作为一项基准资源,其经典使用场景聚焦于从电子健康记录中自动提取结构化医学信息。具体而言,该数据集被广泛用于训练和评估命名实体识别模型,以精准定位出院小结和病程记录中的医疗概念,如疾病、检查与治疗;同时,它支持断言分类任务,以判断这些医疗问题的存在状态,例如是否属于“疑似”或“既往”;此外,关系分类任务则致力于识别概念间的临床关联,如“治疗-疾病”之间的对应关系。
解决学术问题
该数据集有效应对了临床文本信息抽取中的核心学术挑战。它通过提供高质量的人工标注语料,解决了医学实体边界模糊、断言语境复杂以及关系类型多样等研究难题。其意义在于为算法开发提供了可重复比较的基准,显著推动了临床自然语言处理模型的标准化评估。影响深远,不仅促进了信息提取技术的迭代,也为后续大规模生物医学语料库的构建奠定了方法论基础。
实际应用
在实际医疗场景中,n2c2_2010数据集支撑的技术可直接应用于临床决策支持与医疗管理。基于其训练的自动化系统能够从海量非结构化病历文档中快速抽提关键信息,辅助生成患者问题清单、优化临床诊疗路径,并提升临床研究的效率。例如,系统可自动识别患者的所有用药史与并发症,为精准医疗和流行病学研究提供数据支撑,从而减轻医护人员的手工录入负担,提升医疗数据利用价值。
数据集最近研究
最新研究方向
在临床自然语言处理领域,n2c2 2010数据集作为早期标注资源,持续推动着医疗文本信息抽取技术的发展。当前研究聚焦于利用深度学习模型,特别是预训练语言模型如BERT及其变体,提升医学概念识别、断言分类和关系抽取的精度与泛化能力。随着电子健康记录的普及,该数据集在辅助临床决策支持、患者风险预测等热点应用中扮演关键角色,其标注框架为后续更复杂的医疗实体与关系建模奠定了坚实基础,促进了医疗人工智能向可解释、可信赖方向演进。
以上内容由遇见数据集搜集并总结生成



