five

deepsynthbody/deepfake_ecg

收藏
Hugging Face2023-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/deepsynthbody/deepfake_ecg
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 language: - en tags: - generation - ECG generation pretty_name: DeepFake-ECG size_categories: - 10B<n<100B --- ## DeepFake electrocardiograms: the beginning of the end for privacy issues in medicine [Paper](https://www.nature.com/articles/s41598-021-01295-2) [GitHub](https://github.com/vlbthambawita/deepfake-ecg) [Original-data-source](https://osf.io/6hved/) [PyPI](https://pypi.org/project/deepfake-ecg/) ## How to download ### Option 1 ``` python from datasets import load_dataset dataset = load_dataset("deepsynthbody/deepfake_ecg") ``` ### Option 2 ```bash git lfs install git clone https://huggingface.co/datasets/deepsynthbody/deepfake_ecg # if you want to clone without large files – just their pointers # prepend your git clone with the following env var: GIT_LFS_SKIP_SMUDGE=1 ``` ## Demo of using the generator used to generate this dataset https://huggingface.co/spaces/deepsynthbody/deepfake-ecg-generator ### Content Big data is needed to implement personalized medicine, but privacy issues are a prevalent problem for collecting data and sharing them between researchers. A solution is synthetic data generated to represent real dataset carrying similar information. Here, we present generative adversarial networks (GANs) capable of generating realistic synthetic DeepFake 12-lead 10-sec electrocardiograms (ECGs). We have developed and compare two methods, namely WaveGAN* and Pulse2Pulse GAN. We trained the GANs with 7,233 real normal ECG to produce 121,977 DeepFake normal ECGs. By verifying the ECGs using a commercial ECG interpretation program (MUSE 12SL, GE Healthcare), we demonstrate that the Pulse2Pulse GAN was superior to the WaveGAN to produce realistic ECGs. ECG intervals and amplitudes were similar between the DeepFake and real ECGs. These synthetic ECGs are fully anonymous and cannot be referred to any individual, hence they may be used freely. The synthetic dataset will be available as open access for researchers at OSF.io and the DeepFake generator available at the Python Package Index (PyPI) for generating synthetic ECGs. In conclusion, we were able to generate realistic synthetic ECGs using adversarial neural networks on normal ECGs from two population studies, i.e., there by solving the relevant privacy issues in medical datasets. ### Citation (cite this paper to use this dataset in your research) ```latex @article{thambawita2021deepfake, title={DeepFake electrocardiograms using generative adversarial networks are the beginning of the end for privacy issues in medicine}, author={Thambawita, Vajira and Isaksen, Jonas L and Hicks, Steven A and Ghouse, Jonas and Ahlberg, Gustav and Linneberg, Allan and Grarup, Niels and Ellervik, Christina and Olesen, Morten Salling and Hansen, Torben and others}, journal={Scientific reports}, volume={11}, number={1}, pages={1--8}, year={2021}, publisher={Nature Publishing Group} } ```

license: CC BY 4.0 language: - 英语(en) tags: - 生成 - 心电图生成(ECG generation) pretty_name: DeepFake-ECG size_categories: - 100亿 < n < 1000亿 ## 深度伪造心电图:破解医学隐私困境的开端 [论文](https://www.nature.com/articles/s41598-021-01295-2) [GitHub仓库](https://github.com/vlbthambawita/deepfake-ecg) [原始数据源](https://osf.io/6hved/) [PyPI(Python Package Index)](https://pypi.org/project/deepfake-ecg/) ## 下载方法 ### 选项1 python from datasets import load_dataset dataset = load_dataset("deepsynthbody/deepfake_ecg") ### 选项2 bash git lfs install git clone https://huggingface.co/datasets/deepsynthbody/deepfake_ecg # 若仅需克隆文件指针而非完整大文件 # 请在git clone命令前添加如下环境变量: GIT_LFS_SKIP_SMUDGE=1 ## 本数据集生成器的在线演示 https://huggingface.co/spaces/deepsynthbody/deepfake-ecg-generator ### 研究内容 个性化医疗的落地离不开大数据支撑,但在研究人员之间收集与共享数据时,隐私问题始终是普遍存在的难题。解决方案之一便是生成能够承载真实数据集相似信息的合成数据。本研究提出了可生成逼真合成深度伪造12导联10秒心电图(Electrocardiogram,以下简称ECG)的生成对抗网络(Generative Adversarial Networks,以下简称GAN)。我们开发并对比了两种方法,分别为WaveGAN*与Pulse2Pulse GAN。我们使用7233份真实正常心电图训练上述GAN,生成了121977份深度伪造正常心电图。通过商用心电图解读程序(MUSE 12SL,通用电气医疗集团(GE Healthcare))对生成的心电图进行验证,结果显示Pulse2Pulse GAN生成的心电图真实性优于WaveGAN。深度伪造心电图与真实心电图的间期与振幅均无显著差异。此类合成心电图完全匿名,无法关联至任何个体,因此可自由使用。本合成数据集将通过OSF.io向研究人员开放获取,而深度伪造心电图生成工具则可在Python软件包索引(PyPI)获取以用于合成心电图生成。综上,我们基于两项人群研究的正常心电图,通过对抗神经网络成功生成了具备真实性的合成心电图,由此解决了医学数据集面临的相关隐私困境。 ### 引用规范(若在研究中使用本数据集,请引用以下论文) latex @article{thambawita2021deepfake, title={DeepFake electrocardiograms using generative adversarial networks are the beginning of the end for privacy issues in medicine}, author={Thambawita, Vajira and Isaksen, Jonas L and Hicks, Steven A and Ghouse, Jonas and Ahlberg, Gustav and Linneberg, Allan and Grarup, Niels and Ellervik, Christina and Olesen, Morten Salling and Hansen, Torben and others}, journal={Scientific reports}, volume={11}, number={1}, pages={1--8}, year={2021}, publisher={Nature Publishing Group} }
提供机构:
deepsynthbody
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-4.0
  • 语言: 英语
  • 标签: 生成, ECG生成
  • 美观名称: DeepFake-ECG
  • 大小类别: 10B<n<100B

内容描述

本数据集包含使用生成对抗网络(GANs)生成的121,977个合成12导联10秒心电图(ECG)数据。这些数据是通过训练两个不同的GAN模型(WaveGAN和Pulse2Pulse GAN)生成的,其中Pulse2Pulse GAN表现更优。这些合成ECG数据与真实ECG数据在ECG间隔和幅度上相似,且完全匿名,无法追溯到任何个体,因此可以自由使用。

数据获取

  • 下载方式:
    • Option 1: 使用Python从数据集库加载 python from datasets import load_dataset dataset = load_dataset("deepsynthbody/deepfake_ecg")

    • Option 2: 通过Git LFS克隆数据集 bash git lfs install git clone https://huggingface.co/datasets/deepsynthbody/deepfake_ecg

引用信息

latex @article{thambawita2021deepfake, title={DeepFake electrocardiograms using generative adversarial networks are the beginning of the end for privacy issues in medicine}, author={Thambawita, Vajira and Isaksen, Jonas L and Hicks, Steven A and Ghouse, Jonas and Ahlberg, Gustav and Linneberg, Allan and Grarup, Niels and Ellervik, Christina and Olesen, Morten Salling and Hansen, Torben and others}, journal={Scientific reports}, volume={11}, number={1}, pages={1--8}, year={2021}, publisher={Nature Publishing Group} }

搜集汇总
数据集介绍
main_image_url
构建方式
在医学数据隐私保护日益受到关注的背景下,DeepFake-ECG数据集的构建采用了生成对抗网络(GANs)技术,旨在解决心电数据共享中的隐私难题。该数据集以7,233条真实正常12导联10秒心电图为训练基础,通过WaveGAN和Pulse2Pulse两种生成模型,合成了121,977条深度伪造心电信号。生成过程经过商业心电图分析程序MUSE 12SL的严格验证,确保合成数据在波形区间和振幅上与真实心电图保持高度一致,从而实现了匿名化且无法追溯至个体的高质量合成数据生成。
使用方法
为促进心电研究的数据驱动创新,DeepFake-ECG数据集提供了便捷的访问与使用途径。研究者可通过Hugging Face的datasets库直接加载数据集,或使用Git LFS克隆完整数据文件。数据集配套的生成器已在PyPI发布,支持用户自定义生成合成心电图。在学术应用中,建议引用相关论文以确保学术规范性,合成数据可用于模型训练、算法验证等场景,为医疗人工智能的发展提供安全可靠的数据支撑。
背景与挑战
背景概述
在个性化医疗的浪潮中,大规模高质量数据是实现精准诊疗的基石,然而医疗数据的隐私保护问题成为数据共享与研究的重大障碍。为应对这一挑战,DeepFake-ECG数据集应运而生,由Vajira Thambawita等研究人员于2021年主导构建,并发表于《Scientific Reports》。该数据集核心研究聚焦于利用生成对抗网络技术,合成高度逼真的12导联10秒心电图数据,旨在通过生成匿名化的合成数据,在保留真实心电图关键生物特征的同时,彻底规避患者隐私泄露风险,从而推动心血管疾病研究中的数据开放与协作。
当前挑战
DeepFake-ECG数据集致力于解决医疗数据隐私与可用性之间的根本矛盾,其首要挑战在于生成合成心电图在波形形态、间期与振幅等关键特征上需与真实数据保持高度一致性,以确保其在临床研究中的有效性与可靠性。在构建过程中,研究团队面临模型优化的技术难题,需比较并提升如Pulse2Pulse GAN等不同生成架构的保真度,同时确保大规模合成数据(如从7,233条真实心电生成121,977条合成心电)在分布上能够充分代表原始数据集,避免模式崩溃或特征失真,从而满足后续分析与算法训练的严谨需求。
常用场景
经典使用场景
在心血管医学与生物信息学领域,DeepFake-ECG数据集为研究人员提供了大规模、高质量的合成心电图数据,这些数据通过生成对抗网络技术模拟真实12导联10秒心电图信号。该数据集最经典的使用场景在于训练和验证心电图分析算法,尤其是在数据稀缺或隐私受限的情况下,为机器学习模型提供丰富的训练样本,从而提升模型在心律失常检测、波形分类等任务上的泛化能力。
解决学术问题
该数据集有效解决了医学数据共享中的隐私保护难题,通过生成完全匿名的合成心电图,消除了个人健康信息泄露的风险。在学术研究中,它使得跨机构合作和数据开放访问成为可能,促进了心血管疾病诊断算法的公平比较与可重复性验证,为个性化医疗的大数据需求提供了安全、合规的数据基础。
实际应用
在实际医疗场景中,DeepFake-ECG数据集可用于开发临床决策支持系统,辅助医生进行心电图自动解读与异常检测。此外,它还能为医疗设备制造商提供测试数据,优化心电图仪器的算法性能,同时支持医学教育中的模拟训练,帮助医学生和培训医师在不接触真实患者数据的情况下,学习心电图分析与诊断技能。
数据集最近研究
最新研究方向
在医疗数据隐私保护领域,DeepFake-ECG数据集作为合成心电图的代表性资源,正推动生成对抗网络在生物医学信号合成方面的前沿探索。当前研究聚焦于提升合成心电图的生理学保真度与临床实用性,通过优化脉冲生成模型与波形对抗网络,使合成数据在形态学特征和诊断一致性上更贴近真实生理信号。这一进展不仅缓解了医疗数据共享中的隐私合规压力,还为心血管疾病的风险预测模型训练提供了大规模匿名数据支持,促进了跨机构协作与算法公平性评估。相关技术已延伸至个性化医疗与远程监护场景,为构建安全高效的数字健康生态系统奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作