synthetic-australian-medical-documents-sample

Hugging Face2026-05-07 更新2026-05-08 收录

下载链接：

https://huggingface.co/datasets/RootCauseAnalytics/synthetic-australian-medical-documents-sample

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含50份合成澳大利亚医疗文档的样本，源自一个更大的5,000份文档库。这些文档模拟了澳大利亚医疗文档的风格，完全不含真实患者信息（PHI-free），并带有结构化标注和精确到像素的边界框。数据集旨在解决澳大利亚医疗文档AI训练数据匮乏的问题，特别是由于隐私法限制而难以获取真实医院PDF文档的情况。样本中包含29种文档类型（完整库包含45种），总计682个字段边界框（平均每份文档13.6个）。数据集提供了干净的PDF文件及其扫描变体，适用于文档分类、命名实体识别、结构化提取等多种任务。所有文档均标注有详细的元数据和临床信息，包括患者标识符、文档类型、临床诊断等。数据集采用CC-BY-NC 4.0许可，仅供非商业研究和评估使用。

创建时间：

2026-05-07

搜集汇总

数据集介绍

构建方式

该数据集通过确定性的Python管线程序化生成，模拟了澳大利亚医院及全科诊所的真实文档风格。其构建基于45种文档类型的完整库，从中采样出29种、共计50份文档作为样本。每一份文档均从零开始合成，包含患者身份信息、临床记录、交叉引用等结构化字段，并由系统自动生成像素级精确的边界框标注。数据集同时提供了四种扫描质量变体（清晰数字、300 DPI轻度噪声、150 DPI重度噪声、二值化传真），以模拟真实临床环境中文档因传真、复印或压缩而退化的情形。所有内容均不涉及真实患者数据，每份文档页脚标注有“合成训练文档——不可用于临床”的免责声明。

特点

该数据集的核心优势在于其高度逼真的视觉布局与零隐私风险。与仅包含纯文本的通用合成医疗语料不同，本数据集保留了PDF的版面结构、字体样式和表格布局，可直接用于LayoutLMv3、Donut、DocFormer等视觉语言模型。标注体系涵盖140余种实体类型，包括患者标识、临床诊断（含ICD-10-AM编码）、药物列表及特定文档类型专属字段（如三分类级别、影像编号等）。数据集同时支持文档分类、命名实体识别、结构化抽取、文档问答等多项任务，并可用于去身份化基准测试，因其所有类似PHI的字段均为已知合成数据。样本平均每文档包含13.6个边界框，总计682个标注框。

使用方法

用户可通过加载提供的JSONL文件获取结构化标签，利用splits.json划分训练集（37份）与测试集（13份）。边界框标注以每文档形式存储在bboxes.jsonl中，可直接索引并输入布局感知模型。代码示例展示了如何加载数据、匹配分割集合以及统计文档类型分布。数据集兼容常见的深度学习训练流程，用户可直接用于微调文档分类器或NER模型，也可结合扫描质量变体进行OCR鲁棒性评估。对于完整库的商业许可，数据集生成器及其源代码同样可用，支持按需定制文档类型组合或医院特定品牌标识。

背景与挑战

背景概述

在医疗文档人工智能领域，高质量标注数据的匮乏长期以来制约着模型性能的突破，尤其对于澳大利亚这一拥有独特医疗文档规范与隐私法规的国家而言，真实临床PDF文件因受《隐私法案》严格限制而难以获取。为应对这一困境，Root Cause Analytics机构的研究者Jack Webb于2026年发布了Synthetic Australian Medical Documents数据集，其样本版本（synthetic-australian-medical-documents-sample）包含50份完全合成的澳大利亚医疗文档，涵盖急诊评估、出院小结、处方等29种文档类型，并提供像素级精确的边界框标注与扫描质量变体。该数据集的核心研究问题在于填补视觉真实、全标注且兼具辖区特异性的合成医疗文档空白，为LayoutLMv3、Donut等视觉语言模型提供合规的训练素材，其影响力在于推动澳大利亚医疗文档AI从泛化模型的依赖转向本地化部署，减少隐私合规风险与数据获取周期。

当前挑战

该数据集所解决的领域问题核心在于医疗文档AI的训练数据瓶颈：真实PDF受隐私法规封锁，通用合成文本缺乏布局与扫描细节，而MIMIC等公开数据集以美国为中心且文档类型有限。构建过程中面临多重挑战，包括模拟澳大利亚医院与诊所文档的视觉风格（如新南威尔士州卫生系统样式）以确保布局真实性，同时生成覆盖45种文档类型的结构化标签与140余种实体类型，并设计四个质量等级的扫描变体（从300 DPI轻微噪点至传真级二值化降质）以泛化模型对真实扫描文档的鲁棒性。此外，所有患者标识符、临床记录及交叉引用信息均需严格合成以消除隐私风险，同时在每个文档底部嵌入“SYNTHETIC TRAINING DOCUMENT - NOT FOR CLINICAL USE”免责声明，平衡研究可用性与伦理合规性。

常用场景

经典使用场景

在医疗文档人工智能领域，该数据集主要服务于文档分类、命名实体识别（NER）与结构化信息提取等经典任务。例如，研究者可借助其提供的45种文档类型标签，训练模型精准区分急诊评估、出院小结、处方笺等不同文书；亦可利用140余种实体类型的标注，抽取患者姓名、诊断代码（ICD-10-AM）、药物名称等关键临床信息。此外，基于像素级边界框的布局注释，该数据集还支持诸如LayoutLMv3、Donut等视觉语言模型的布局感知训练，为医疗文档的版面分析与多模态理解提供了标准化基准。

解决学术问题

该数据集核心解决了医疗文档人工智能研究中训练数据匮乏与隐私合规的双重困境。真实澳大利亚医院PDF文件受《隐私法》严格限制，而现有公开数据集（如MIMIC）以美国为中心且文档类型有限。通过合成技术生成无真实患者信息的文档，该数据集在完全避免隐私风险的前提下，提供了具有真实布局、扫描噪声和领域特异性的高质量标注数据。这使研究者能够开展澳大利亚医疗环境下的文档AI研究，包括评估去标识化算法、训练OCR鲁棒性模型以及开发临床语言模型的预训练语料，填补了法律与数据供给之间的鸿沟。

衍生相关工作

该数据集衍生了一系列重要的研究工作与基准测试。基于其合成架构，研究者可扩展生成器代码以创建定制化医疗文档集，从而探索文档类型对模型泛化性的影响。在模型层面，已有工作将其用于评估LayoutLMv3在澳大利亚临床文档上的迁移学习效果，以及比对OCR后处理与端到端视觉模型（如Donut）的抽取精度。此外，针对扫描质量退化（如传真、低DPI）的消融实验，推动了鲁棒文档AI方法的创新。这些工作不仅验证了合成数据在医疗领域的可行性，也为后续构建更大规模、多国家的医疗文档数据库奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集