synthetic_data

Hugging Face2025-03-14 更新2025-03-15 收录

下载链接：

https://huggingface.co/datasets/wendy416/synthetic_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了三个子数据集：Cleveland、Hungarian和Switzerland。每个子数据集都记录了患者的心脏病相关信息，包括年龄、性别、胸痛类型、静息血压、胆固醇、血糖、ECG结果、最大心率、运动诱发的心绞痛情况、运动后的ST段斜率、冠状动脉造影显示的血管数量、地中海贫血状况以及是否患有心脏病。Cleveland子数据集包含9000个样本，Hungarian子数据集包含27000个样本，Switzerland子数据集包含12000个样本。

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

synthetic_data数据集的构建是基于心血管疾病患者的临床特征，涵盖了年龄、性别、胸痛类型、血压、胆固醇水平等多个维度。该数据集通过模拟真实世界中的医疗记录，为研究者提供了一个综合性的研究平台。每一配置名称下，数据集的特征字段和类型均经过精心设计，以匹配不同来源的临床数据格式，确保数据的一致性和可用性。

特点

该数据集的特点在于其合成性质，能够提供无隐私风险的患者数据，便于研究者在不侵犯患者隐私的前提下进行分析。此外，数据集包含多个配置版本，如cleveland、hungarian和switzerland，每个版本都包含不同的数据子集，允许研究者在多种数据分布上进行模型训练和评估。各数据子集的规模和特征字段一致，有利于保证实验的可重复性。

使用方法

使用synthetic_data数据集时，用户可以根据不同的研究需求选择相应的配置版本。数据集支持多种数据分割方式，如great、tvae和tabsyn，这为研究者提供了灵活的数据处理选项。用户可以通过HuggingFace的库直接加载数据，并根据提供的路径访问不同 splits 的数据，以进行模型的训练、验证和测试。

背景与挑战

背景概述

synthetic_data数据集是在心血管疾病研究领域具有重要地位的一组合成数据。该数据集由多个配置组成，包括cleveland、hungarian和switzerland等，各自包含了年龄、性别、胸痛类型、血压、胆固醇水平、血糖状况、心电图结果等14种特征，旨在模拟真实世界中心血管疾病的病例。创建于心血管疾病诊断与预测的研究背景之下，该数据集自构建以来，便被广泛用于疾病预测模型的研究与评估，对提高心血管疾病诊断准确率及预测模型的发展产生了显著影响。

当前挑战

在研究领域，synthetic_data数据集面临的挑战主要涉及数据真实性的验证以及模型泛化能力的提升。首先，尽管数据集是合成的，但必须保证其能够准确反映真实世界的情况，这对于模型的有效训练至关重要。其次，构建过程中确保数据分布的均匀性和代表性是一大挑战，这直接关系到模型的泛化能力。此外，如何在保护患者隐私的同时，充分利用这些数据进行研究，也是当前面临的一个重要挑战。

常用场景

经典使用场景

synthetic_data数据集在心血管疾病研究领域具有广泛的应用价值，其经典使用场景在于通过合成数据模拟真实世界中心血管疾病的分布情况，为疾病预测模型提供训练基础。

实际应用

在实际应用中，synthetic_data数据集可用于医疗健康系统的疾病风险评估、早期预警系统的构建以及个性化医疗方案的制定。

衍生相关工作

基于该数据集，研究者们开展了一系列相关工作，包括疾病预测模型的构建、算法性能的比较研究以及医疗数据处理方法的研究，为心血管疾病的研究与治疗提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集