SynSUM

Name: SynSUM
Creator: 根特大学 - imec
Published: 2024-09-13 23:55:15
License: 暂无描述

arXiv2024-09-13 更新2024-09-17 收录

下载链接：

https://github.com/prabaey/SynSUM

下载链接

链接失效反馈

官方服务：

资源简介：

SynSUM数据集是由根特大学 - imec创建的合成医疗记录数据集，包含10,000条人工生成的患者记录，涵盖结构化和非结构化医疗记录。数据集通过贝叶斯网络生成，结合了专家领域知识和GPT-4o语言模型生成的临床笔记。该数据集主要用于临床信息提取研究，特别是在存在表格背景变量的情况下，辅助自动化临床推理和多模态合成数据生成。

The SynSUM dataset is a synthetic medical records dataset created by Ghent University - imec. It contains 10,000 artificially generated patient records covering both structured and unstructured medical records. Generated via Bayesian networks, the dataset integrates expert domain knowledge and clinical notes produced by the GPT-4o language model. This dataset is primarily used for clinical information extraction research, particularly to assist automated clinical reasoning and multimodal synthetic data generation in scenarios with tabular background variables.

提供机构：

根特大学 - imec

创建时间：

2024-09-13

原始信息汇总

SynSUM -- 合成医学记录基准数据集

数据集概述

名称: SynSUM
类型: 合成数据集
领域: 呼吸系统疾病
记录数量: 10,000条
结构: 包含结构化变量和非结构化临床笔记

数据内容

诊断:
- 肺炎 (pneu)
- 普通感冒 (cold)
症状:
- 呼吸困难 (dysp)
- 咳嗽 (cough)
- 疼痛 (pain)
- 发热 (fever)
- 鼻塞 (nasal)
基础疾病:
- 哮喘 (asthma)
- 吸烟 (smoking)
- 慢性阻塞性肺病 (COPD)
- 花粉症 (hay_fever)
外部影响:
- 政策 (policy)
- 自雇 (self_empl)
- 季节 (season)
治疗:
- 抗生素 (antibiotics)
结果:
- 居家天数 (days_at_home)
文本笔记:
- 临床笔记 (text)
- 简化版临床笔记 (advanced_text)

数据生成过程

步骤:
1. 从贝叶斯网络中采样生成表格部分。
2. 使用GPT-4大型语言模型生成临床笔记。
3. 生成简化版临床笔记。
详细报告: 参见论文。

数据访问

下载链接: SynSUM.csv

潜在用途

临床信息提取研究
自动化临床推理研究
因果效应估计研究
多模态合成数据生成研究

搜集汇总

数据集介绍

构建方式

SynSUM数据集通过结合结构化背景变量和非结构化临床笔记，构建了一个合成基准。该数据集包含10,000个虚构的患者记录，涵盖表格变量（如症状、诊断和潜在条件）以及描述患者就诊的文本。表格部分的数据通过贝叶斯网络生成，其中变量之间的因果结构和条件概率由领域专家根据专业知识提出。随后，使用大型语言模型（GPT-4o）生成与患者就诊相关的临床笔记，描述患者的症状和附加背景。

使用方法

SynSUM数据集主要用于研究临床信息提取，特别是在存在表格背景变量的情况下。研究人员可以利用该数据集训练和评估信息提取模型，探索表格数据和文本数据之间的关联。此外，该数据集还可用于自动化临床推理、因果效应估计以及多模态合成数据生成等领域的研究。数据集可通过https://github.com/prabaey/SynSUM下载。

背景与挑战

背景概述

SynSUM数据集由Ghent大学的IDLab、Department of Information Technology以及Department of Public Health and Primary Care共同创建，旨在解决结构化与非结构化医疗记录的关联问题。该数据集包含10,000个合成患者记录，涵盖呼吸系统疾病领域的症状、诊断和背景变量。通过贝叶斯网络生成结构化数据，并利用GPT-4o大型语言模型生成临床笔记，SynSUM数据集主要用于促进临床信息提取研究，特别是在存在表格背景变量的情况下。此外，该数据集还支持自动化临床推理、因果效应估计以及多模态合成数据生成等次要用途。

当前挑战

SynSUM数据集面临的挑战包括：1) 解决临床信息提取中的复杂性问题，特别是临床笔记中可能遗漏的重要上下文细节；2) 在构建过程中，如何确保合成数据的现实性和准确性，同时避免过度简化现实情况；3) 如何有效地将结构化数据与非结构化文本相结合，以提高信息提取的准确性；4) 在实际应用中，如何确保合成数据集的结果能够推广到真实的临床记录中，而不产生误导。

常用场景

经典使用场景

SynSUM数据集主要用于临床信息提取研究，特别是在存在表格背景变量的情况下。通过将非结构化的临床笔记与结构化的背景变量相结合，研究人员可以探索如何利用领域知识来提高从文本中提取概念的准确性。例如，在呼吸系统疾病的初级护理场景中，医生记录患者的症状和相关背景信息，这些信息可以用于训练模型，以自动提取和关联症状与诊断。

解决学术问题

SynSUM数据集解决了在电子健康记录（EHR）中结合结构化数据和非结构化文本进行信息提取的常见学术问题。传统的信息提取方法往往难以处理复杂的临床笔记，而SynSUM通过引入领域知识和表格数据，提供了一个更现实的基准，有助于研究如何在这些复杂环境中进行有效的信息提取。这不仅提高了模型的准确性，还增强了模型的可解释性，特别是在高风险的临床应用中。

实际应用

在实际应用中，SynSUM数据集可以用于开发和验证临床决策支持系统，这些系统能够自动从电子健康记录中提取关键信息，如症状和诊断。例如，在初级护理环境中，医生可以使用这些系统来快速识别患者的呼吸系统症状，并根据提取的信息制定治疗计划。此外，该数据集还可用于训练和评估多模态数据生成模型，这些模型能够生成合成的电子健康记录，以保护患者隐私并支持临床研究。

数据集最近研究