SynGP500

github2025-12-03 更新2025-12-04 收录

下载链接：

https://github.com/pisong314/syngp500

下载链接

链接失效反馈

官方服务：

资源简介：

SynGP500是一个由临床医生策划的包含500份合成澳大利亚全科医疗记录的集合，旨在支持初级保健领域的机器学习和自然语言处理研究。该数据集通过系统多维基础生成高质量合成临床记录，模拟澳大利亚全科医疗的临床真实性，同时避免真实患者数据的隐私限制，包括条件选择、病例分布、临床推理、上下文多样性、心理社会复杂性和文体真实性等特征。

SynGP500 is a curated collection of 500 synthetic Australian general practice medical records developed by clinicians, designed to support machine learning and natural language processing research in the primary care domain. This dataset generates high-quality synthetic clinical records based on systematic multidimensional frameworks, replicating the clinical realism of Australian general practice while circumventing the privacy constraints associated with real patient data. Key characteristics of the dataset include condition selection, case distribution, clinical reasoning, contextual diversity, psychosocial complexity, and stylistic authenticity.

创建时间：

2025-11-23

搜集汇总

数据集介绍

构建方式

在医疗自然语言处理领域，真实临床文本的获取常受限于隐私法规与伦理约束。SynGP500数据集的构建采用系统性多维锚定策略，以生成高质量合成医疗记录。其病例选择依据澳大利亚皇家全科医师学院（RACGP）注册医师培训课程，确保临床相关性；病例分布则参照BEACH研究数据，模拟真实流行病学模式。生成过程融合了澳大利亚临床指南的循证管理逻辑，并覆盖九种就诊场景与七种偏远地区分类，同时纳入社会健康决定因素，以反映真实世界决策的复杂性。通过大型语言模型生成文本，并经由合格全科医师审核，最终形成500份合成医疗笔记，在保护患者隐私的前提下逼近临床真实性。

特点

SynGP500数据集展现出高度的临床与语言多样性，其核心特征在于融合了流行病学验证与风格真实性。病例分布与BEACH研究数据高度吻合，多数主诉类别误差控制在±1-2%以内，确保了流行病学代表性。笔记平均长度606±257词，变异系数0.42-0.47，呈现自然波动；语言风格上，通过多个人工合成的医师角色模拟了不同文档模式，包括措辞详略、缩写习惯与推理记录方式的差异。数据集包含0.83%的自然拼写错误率，词汇多样性指标（MATTR）介于0.858至0.946之间，医学术语密度达48.3%，并采用SNOMED-CT-AU编码实现系统化本体覆盖。命名实体识别验证显示，其分组类型F1分数达到0.6951，较基线提升14.7%，证实了其在自然语言处理任务中的实用性。

使用方法

为支持初级保健领域的机器学习与自然语言处理研究，SynGP500数据集以纯文本格式提供，便于直接访问与处理。用户可通过Git克隆仓库获取全部500份合成医疗笔记，文件均存放于`/notes`目录下，采用UTF-8编码。每个文件名遵循`{SNOMED_code}_{ID}_{condition_name}.txt`的命名规范，便于识别病例与编码对应关系。研究者可将其用于模型训练、基准测试或概念验证开发，但需注意数据集仅限非商业用途，并需遵循CC BY-NC-SA 4.0许可协议。使用前务必阅读完整文档，了解其合成性质与临床准确性限制，确保在教育或研究应用中结合专业审核，以规避潜在的不准确风险。

背景与挑战

背景概述

在医疗自然语言处理研究领域，获取真实临床文本数据长期面临隐私法规与伦理约束的严峻挑战，尤其在澳大利亚全科医疗这一特定场景下，公开可用的数据集极为稀缺。为应对这一困境，SynGP500数据集于2025年由临床研究者Piyawoot Songsiritat博士主导创建。该数据集的核心研究问题在于，如何在不触及真实患者隐私的前提下，生成高质量、具有临床真实性的合成医疗记录，以支持初级保健领域的机器学习与自然语言处理技术发展。通过系统性地融合澳大利亚皇家全科医师学会课程指南、BEACH流行病学研究数据以及多元化的临床情境，该数据集为学术界提供了一个既符合伦理规范又能反映实际诊疗复杂性的重要资源，对推动医疗人工智能研究的可及性与安全性具有显著影响力。

当前挑战

SynGP500数据集旨在解决的领域挑战，是医疗自然语言处理中因数据隐私限制而导致的模型训练与评估资源匮乏问题，特别是针对澳大利亚全科医疗语境下的临床文本分析与信息提取。在构建过程中，研究团队面临多重具体挑战：其一，需确保合成笔记的临床真实性，这涉及将医学指南、流行病学分布、社会健康决定因素及多样化的诊疗场景进行多维度的系统化整合；其二，需在生成文本中模拟真实医疗记录的语言风格变异，包括拼写错误、缩写使用、不同临床医生的记录习惯等自然语言特征；其三，整个生成流程依赖于大型语言模型与单临床医生审核，可能引入未被察觉的临床不准确性，且数据验证范围有限，这对数据集在关键医疗应用中的可靠性构成了潜在约束。

常用场景

经典使用场景

在医疗自然语言处理领域，SynGP500数据集为研究人员提供了一个高度仿真的澳大利亚全科医疗文本资源。其经典使用场景集中于训练和评估临床文本挖掘模型，例如命名实体识别和信息提取系统。通过模拟真实诊疗记录中的语言变异、临床复杂性和多样化就诊环境，该数据集能够帮助算法学习识别医疗术语、患者状况及治疗决策，从而在严格遵守隐私法规的前提下，推动初级保健领域的NLP技术发展。

实际应用

在实际应用层面，SynGP500可用于开发和测试临床决策支持工具、电子健康记录分析系统以及医学教育模拟平台。例如，医疗机构可利用该数据集训练模型来自动提取病历中的关键信息，辅助医生进行诊断编码或患者风险评估。医学教育者也能借助这些合成案例，设计教学材料以培训医学生处理复杂临床场景的能力，同时完全规避患者隐私泄露的风险，实现安全高效的知识传递与技能培养。

衍生相关工作

围绕SynGP500数据集，已衍生出多项关注医疗文本合成与评估的经典研究工作。这些工作主要集中在提升合成数据的临床真实性与语言多样性，例如通过改进大型语言模型的提示工程与临床知识注入策略来优化文本生成质量。同时，研究社区也利用该数据集开展跨机构NLP模型基准测试，探索合成数据在医疗实体识别、关系抽取等任务上的迁移学习潜力，为构建更稳健、可泛化的医疗人工智能系统提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集