Obstetrics Notes Collection (ONC)

Name: Obstetrics Notes Collection (ONC)
Creator: 伊利诺伊大学芝加哥分校
Published: 2026-02-20 00:25:07
License: 暂无描述

arXiv2026-02-20 更新2026-02-21 收录

下载链接：

https://anonymous.4open.science/r/obstetrics_notes_collection-DEEF/

下载链接

链接失效反馈

官方服务：

资源简介：

ONC是由伊利诺伊大学芝加哥分校团队构建的产科临床笔记数据集，包含100份经过脱敏处理的病史与体检记录，涵盖阴道分娩和重复剖宫产患者。该数据集通过REDCap系统收集，采用Spark NLP框架自动脱敏，并经由医学专家人工标注章节边界，保留了产科特有的'妊娠史'等专业章节标题。作为对MIMIC-III公共语料库的领域补充，ONC专注于评估模型在产科这一临床子领域的跨域适应能力，为医疗NLP在稀缺标注数据场景下的应用提供基准测试资源。

ONC is an obstetric clinical note dataset constructed by the team from the University of Illinois Chicago. It contains 100 de-identified medical history and physical examination records, covering patients who underwent vaginal delivery and repeat cesarean section. This dataset was collected via the REDCap system, automatically de-identified using the Spark NLP framework, with section boundaries manually annotated by medical experts, and retains professional section titles unique to obstetrics such as "Pregnancy History". As a domain-specific supplement to the MIMIC-III public corpus, ONC focuses on evaluating the cross-domain adaptation capability of models in the clinical subfield of obstetrics, providing benchmark resources for the application of medical NLP in scenarios with scarce annotated data.

提供机构：

伊利诺伊大学芝加哥分校

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在临床自然语言处理领域，构建高质量的专业数据集对于推动领域适应性研究至关重要。Obstetrics Notes Collection (ONC) 的构建过程体现了严谨的学术规范与临床实践的结合。该数据集通过REDCap平台收集了100份来自剖宫产后阴道分娩和重复剖宫产患者的完整病史与体格检查记录。为确保患者隐私合规，所有笔记均在一个符合HIPAA标准的安全环境中，使用Spark NLP框架进行了自动去标识化处理，掩蔽了姓名、地点、日期等敏感信息，并经由机构隐私办公室审核确认。随后，研究团队与助产领域专家协作，对这些笔记进行了细致的章节边界与标题类型的人工标注，最终形成了这个专注于产科领域的、去标识化的标注语料库。

特点

ONC数据集的核心特点在于其专注于产科这一临床亚专业领域，填补了公共语料库在此方面的空白。与MIMIC-III等通用临床数据集不同，ONC包含了产科特有的章节标题，如“妊娠史”、“妇科史”等，精准捕捉了该领域的叙事结构与临床语义。数据集严格保留了原始文档的叙事风格和术语变体，例如“印象与计划”的不同表述方式，这真实反映了临床文档的非标准化特性。其有限的规模（100份笔记）旨在作为一个高质量的基准测试集，专门用于评估模型在未见过的、专业化临床领域中的泛化与适应能力。

使用方法

ONC数据集的主要用途是作为评估临床章节分割模型跨领域泛化能力的基准。在相关研究中，它被用作纯粹的评估集，与在通用数据集（如MedSecId）上训练的监督模型进行对比，以揭示模型从通用领域迁移到产科专业领域时面临的性能衰减。同时，该数据集也被用于评估零样本大语言模型在缺乏领域特定标注数据情况下的适应性与鲁棒性。研究人员通过设计特定的指令提示，要求模型为笔记的每一行分配预定义的章节标题，从而检验其在新领域的零样本学习能力。这种使用方法为探索如何在标注资源稀缺的临床亚专业中有效应用自然语言处理技术提供了重要见解。

背景与挑战

背景概述

电子健康记录（EHR）中的自由文本临床笔记蕴含着关键的患者信息，其通常被组织成带有标签的章节，如‘主诉’和‘现病史’。准确识别这些章节对于支持临床决策和下游自然语言处理任务至关重要。然而，临床文档格式多变，缺乏标准化，这促使了更鲁棒的机器学习方法的发展。尽管基于大型公开语料库（如MIMIC-III）训练的监督模型在章节分割任务上展现出潜力，但其在特定临床子领域的适应能力尚不明确。为此，伊利诺伊大学芝加哥分校的研究团队于2026年推出了产科笔记集合（Obstetrics Notes Collection, ONC）。该数据集包含100份经过脱敏和专家标注的产科病史与体格检查笔记，旨在补充现有公共资源（如MIMIC-III）在产科等专业领域的覆盖不足，为研究临床章节分割在未充分探索的子领域中的表现提供了现实的基准。ONC的创建推动了医疗自然语言处理研究向更专业化、细分的临床场景延伸，强调了开发领域特定资源的重要性。

当前挑战

ONC数据集所应对的核心领域挑战是临床文档的章节分割问题，特别是在产科这一专业子领域中。该任务面临文档格式高度不统一的固有难题，例如章节标题存在大量缩写、变体甚至拼写错误，这给基于规则或传统机器学习方法带来了严峻考验。在数据集构建过程中，挑战同样显著。首要挑战是专业标注资源的稀缺性，高质量的标注需要与产科领域专家紧密协作，成本高昂且耗时。其次，临床笔记包含受保护的医疗信息，必须进行严格的脱敏处理以符合HIPAA等隐私法规，这一过程需要自动化工具与人工审核相结合，确保数据可用性与合规性的平衡。此外，产科文档具有独特的叙事结构和专业术语，如何设计既能反映领域特性又能与通用标注框架进行公平比较的章节标签体系，是另一个关键挑战。最后，数据集的规模有限，可能无法完全捕捉产科文档的全部变异性，这对其作为评估基准的代表性构成了潜在限制。

常用场景

经典使用场景

在临床自然语言处理领域，电子健康记录中的自由文本笔记通常包含结构化的章节信息，如'主诉'和'现病史'。Obstetrics Notes Collection (ONC) 作为一个专门针对产科领域的标注数据集，其经典使用场景在于评估和比较不同机器学习模型在临床章节分割任务上的跨领域泛化能力。研究者利用ONC作为目标域测试集，系统分析监督模型与零样本大语言模型在产科这一特定医学子领域中的表现差异，从而揭示模型在未见过的临床文档风格和章节标题变体下的鲁棒性。

衍生相关工作

ONC数据集的发布催生了一系列围绕临床章节分割与领域适应的对比性研究。相关工作深入探讨了基于Transformer的监督模型（如BioBERT、GatorTron结合CRF层）与零样本大语言模型（如Llama、Mistral、Qwen）在跨域场景下的性能边界。这些研究不仅复现了监督模型在域外性能下降的现象，还首次系统比较了零样本策略的优劣，特别是针对模型幻觉问题的后处理校正方法。此外，该数据集也激励了后续对更广泛临床子领域资源的构建，以及对结合医学本体论、少样本学习等适应策略的进一步探索，丰富了医疗NLP的方法论体系。

数据集最近研究