合成神经外科数据集

Name: 合成神经外科数据集
Creator: 加拿大卡尔加里大学Cumming医学院
Published: 2025-02-14 02:21:15
License: 暂无描述

arXiv2025-02-14 更新2025-02-27 收录

下载链接：

https://github.com/aabarr/Synthetic-Neurosurgical-Data

下载链接

链接失效反馈

官方服务：

资源简介：

本研究使用的合成神经外科数据集是由GPT-4o生成的，它根据现实世界开放访问的神经外科数据集的统计特性，生成具有高保真度的合成数据。数据集包含139名接受神经外科手术的老年患者的记录，并额外生成了一个放大十倍样本量的数据集。该数据集保留了现实世界数据的单变量和双变量统计特性，没有直接暴露任何真实患者记录，可以用于增强临床数据，训练机器学习模型以预测神经外科结果。

The synthetic neurosurgical dataset utilized in this study was generated by GPT-4o, which produces high-fidelity synthetic data following the statistical characteristics of real-world open-access neurosurgical datasets. This dataset includes records of 139 elderly patients who underwent neurosurgery, alongside an additional dataset with a sample size ten times larger. It retains the univariate and bivariate statistical properties of real-world clinical data, does not directly expose any real patient records, and can be employed to augment clinical datasets and train machine learning models for predicting neurosurgical outcomes.

提供机构：

加拿大卡尔加里大学Cumming医学院

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

本研究采用零样本生成方法，利用大型语言模型（LLM）GPT-4o生成合成神经外科数据集。研究者将现实世界中开放获取的神经外科数据集的单变量和双变量统计特性以自然语言描述的形式输入GPT-4o，并指示生成与原始样本大小相匹配的10个合成数据集，以及一个代表十倍放大的数据集（n = 1390）。此外，还使用条件表格生成对抗网络（CTGAN）生成了两个数据集，样本大小分别为139和1390，用于基准测试。通过比较合成数据集与真实世界数据（RWD）的保真度（均值、比例、分布和双变量相关性）、效用（ML分类器在RWD上的性能）和隐私（从RWD复制记录）来评估合成数据集。

特点

该数据集具有高保真度、高效用和良好的隐私保护。GPT-4o生成的数据集在保真度方面与CTGAN性能相当或更优，尽管没有进行微调或访问RWD进行预训练。数据集在不直接暴露任何真实患者记录的情况下，展示了与RWD的高单变量和双变量保真度。在GPT-4o生成的数据集（n = 1390）上训练ML分类器，并在RWD上进行二元预测任务的测试，显示了F1分数（0.706），其性能与在CTGAN数据上训练的模型（0.705）相当，用于预测术后功能状态恶化。

使用方法

该数据集可用于神经外科研究、临床研究和机器学习模型开发。它可以帮助解决数据可用性、样本大小和监管限制等问题，为研究人员提供高质量的合成神经外科数据。数据集可通过GitHub存储库获取，并可用于训练ML模型、预测神经外科结果以及进行其他研究。

背景与挑战

背景概述

神经外科研究依赖于从研究倡议或常规手术和围手术期护理中收集的数据，以识别疾病模式、评估干预措施和评估患者结果。高质量的神经外科数据越来越多地应用于训练和验证机器学习（ML）模型，以预测结果、进行图像分析和制定手术计划。然而，获取、共享和使用真实世界数据（RWD）面临着重大障碍。临床数据的获取受到数据可用性、数据不完整、样本量小、隐私法规以及耗时的预处理和去识别程序的制约。为了解决这些挑战，一些项目已经启动，以促进神经外科研究人员之间的数据共享和协作。合成的数据作为一种有希望的解决方案，用于解决数据稀缺性和隐私性的挑战。这种方法涉及创建人工数据集，这些数据集保留了RWD中的统计属性和关系，但旨在保护患者隐私，并使数据共享和使用的机会更大。当前创建合成数据的方法主要涉及生成对抗网络（GANs）和变分自动编码器（VAEs）。尽管GANs和VAEs已经展示了合成图像和表格临床数据的高保真度和实用性，但仍然存在一些局限性。这些方法需要技术专业知识、访问RWD进行训练，并且与隐私问题相关，特别是在较小的数据集上训练时。最近，使用另一种形式的生成人工智能：大型语言模型（LLMs）生成合成表格数据的结果已经出现。使用零样本自然语言提示，LLM GPT-4o能够生成保留真实世界围手术期数据中的单变量统计属性和简单的参数之间关系的数据。尽管有希望，但仍然存在关于数据用于训练ML模型的有用性、数据增强的能力（即放大、增强）以及应用于神经外科数据的应用性问题。本研究旨在扩展现有研究，这些研究评估了使用GPT-4o进行零样本合成表格数据生成的方法。具体而言，我们评估了GPT-4o生成的合成神经外科数据的保真度、有用性和隐私性，并将其性能与为表格数据合成而设计的GAN进行基准测试：条件表格生成对抗网络（CTGAN）。在合成数据和RWD之间进行了均值、比例、分布、双变量相关性、ML模型性能和记录唯一性的比较。这些指标还评估了放大样本大小和添加新相关特征到数据中的情况。通过关注一个小型神经外科数据集，该数据集涵盖了各种颅内病理和围手术期参数，这项工作旨在证明LLMs在解决神经外科研究的数据获取和可用性挑战方面的适用性。

当前挑战

本研究旨在评估GPT-4o生成合成神经外科数据的保真度、有用性和隐私性，并将其性能与为表格数据合成而设计的GAN进行基准测试：条件表格生成对抗网络（CTGAN）。主要挑战包括：1）保留分布特征的能力；2）提高分类器性能；3）在数据中添加新相关特征；4）在没有提供公式的情况下对参数进行计算；5）评估LLM生成的合成数据在训练ML模型以预测神经外科结果方面的有用性。

常用场景

经典使用场景

合成神经外科数据集主要应用于神经外科临床研究和机器学习模型开发，特别是在数据获取受限的情况下。该数据集可以用于训练和验证机器学习模型，预测神经外科手术结果，以及评估手术干预措施。此外，该数据集还可以用于模拟神经外科手术过程，帮助医生进行手术规划和决策。

实际应用

合成神经外科数据集的实际应用场景包括神经外科手术结果预测、手术干预措施评估、手术过程模拟、手术规划和决策支持等。此外，该数据集还可以用于神经外科教学和培训，帮助学生和医生更好地理解和掌握神经外科知识和技能。

衍生相关工作

合成神经外科数据集的衍生相关工作包括使用大型语言模型生成合成数据、评估合成数据的保真度、实用性和隐私性，以及使用合成数据进行机器学习模型训练和预测等。此外，还可以探索使用合成数据进行神经外科教学和培训的方法，以及使用合成数据进行神经外科手术过程模拟和手术规划和决策支持的方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集