five

synthetic_patient_events

收藏
Hugging Face2024-07-30 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/gretelai/synthetic_patient_events
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由Gretel Navigator生成的合成患者数据集,旨在模拟真实的患者记录,用于各种研究和开发场景。数据集遵循隐私和数据保护标准,并根据Apache 2.0许可证授权。数据集包含7,348行,具有以下特征:患者唯一标识符、姓名、出生日期、性别、种族、体重、身高、医疗事件唯一标识符、事件类型、事件日期、事件名称、医疗服务提供者姓名、事件原因、结果、详细信息和备注。该数据集适用于开发和测试医疗应用程序、医学数据科学研究、医疗环境下的机器学习模型训练以及其他需要真实但非敏感患者数据的场合。

This is a synthetic patient dataset generated by Gretel Navigator, which aims to simulate real patient records for various research and development scenarios. The dataset complies with privacy and data protection standards and is licensed under the Apache 2.0 License. It contains 7,348 rows and includes the following features: patient unique identifier, full name, date of birth, gender, race, weight, height, medical event unique identifier, event type, event date, event name, healthcare provider name, event cause, outcome, detailed information, and notes. This dataset is suitable for developing and testing medical applications, conducting medical data science research, training machine learning models in healthcare settings, and other scenarios that require realistic but non-sensitive patient data.
提供机构:
Gretel.ai
创建时间:
2024-07-30
原始信息汇总

合成患者数据集

数据集概述

该数据集是一个合成患者数据的表示,由Gretel Navigator创建。它旨在模拟现实患者记录,用于各种研究和开发场景。数据集遵守隐私和数据保护标准,并根据Apache 2.0许可证授权。

数据集组成

数据集包含7,348行,具有以下特征:

  • patient_id: 每个患者的唯一标识符。
  • first_name: 患者的名。
  • last_name: 患者的姓。
  • date_of_birth: 患者的出生日期。
  • sex: 患者的性别。
  • race: 患者的种族背景。
  • weight: 患者的体重(以磅为单位)。
  • height: 患者的高度(以英寸为单位)。
  • event_id: 每个医疗事件的唯一标识符。
  • event_type: 医疗事件的类型(例如,症状、诊断测试)。
  • event_date: 医疗事件发生的日期。
  • event_name: 医疗事件的名称。
  • provider_name: 医疗服务提供者的名称。
  • reason: 医疗事件的原因。
  • result: 医疗事件的结果。
  • details: 医疗事件的额外细节。
  • notes: 关于患者状况或治疗的任何额外笔记。

特征类型

该数据集包括多种类型的数据,使其成为测试合成数据模型和匿名化技术的理想资源:

  • 数值型: 如体重、身高和event_id。
  • 分类型: 如性别、种族和event_type。
  • 文本型: 如名、姓、提供者名称和原因。
  • 嵌入JSON: 如details包含JSON对象。
  • 空值: 某些字段可能包含空值,表示缺失数据。
  • 自然语言文本: 如notes包含详细的文本信息。

示例数据

以下是数据集的前几行,供参考:

patient_id first_name last_name date_of_birth sex race weight height event_id event_type event_date event_name provider_name reason result details notes
pmc-6431471-1 Aisha Liang 04/17/1960 Female Asian 135 61 1 Admission 04/17/2023 Initial admission Dr. Rosa Fernandez Generalized malaise, dyspnea, cough null {"intensity": "N/A", "location": "N/A"} Patient admitted with symptoms including malaise, dyspnea on exertion, and cough, exhibiting hypotension and fever on arrival. Initial laboratory tests indicated possible infection, broad-spectrum antibiotics and other treatments were administered, significantly stabilizing patient overnight.
pmc-6203866-2 Alejandro Gomez 05/16/1978 Male Hispanic 165 70 1 Admission 01/10/2023 null St. Marys Hospital null null {"intensity": "medium", "location": "thorax"} Patient admitted for work-up related to thorax mass.
pmc-6203866-2 Alejandro Gomez 05/16/1978 Male Hispanic 165 70 2 Diagnosis Test 01/11/2023 CT Guided Biopsy Dr. Lin null Lipoma {"intensity": "null", "location": "null"} CT guided biopsy revealed a fatty mass which was diagnosed as lipoma.

许可证

该数据集根据Apache 2.0许可证授权。您可以根据该许可证的条款使用、分发和修改数据集。

使用

该合成数据集可用于:

  • 开发和测试医疗应用程序。
  • 医学数据科学的研究和分析。
  • 在医疗环境中训练机器学习模型。
  • 任何需要真实但非敏感患者数据的其他目的。

引用

如果您在工作中使用此数据集,请按以下方式引用:

@dataset{gretel_navigator_synthetic_patient_data, title = {Synthetic Patient Data}, creator = {The Gretel.ai team, using Gretel Navigator}, year = {2024}, url = {https://huggingface.co/datasets/gretelai/synthetic_patient_events}, version = {1.0}, license = {Apache 2.0} }

贡献

我们欢迎对改进和扩展此数据集的贡献。如果您有任何建议或改进,请提交拉取请求或在数据集仓库中打开问题。

联系

如有任何问题或疑问,请联系我们:hi@gretel.ai,或在Discord社区中联系我们:https://gretel.ai/discord

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过Gretel Navigator工具构建,旨在模拟真实的患者记录,适用于多种研究和开发场景。数据集严格遵循隐私和数据保护标准,确保数据的合成性和安全性。构建过程中,采用了多样化的数据类型,包括数值型、类别型、文本型以及嵌套的JSON结构,以全面覆盖医疗数据的复杂性和多样性。
使用方法
该数据集适用于开发和测试医疗应用程序、医学数据科学研究、医疗背景下的机器学习模型训练等场景。用户可以通过HuggingFace平台下载数据集,并根据Apache 2.0许可证进行使用、分发和修改。数据集的结构清晰,便于直接加载和分析,适合用于探索性数据分析、模型训练和验证等多种用途。
背景与挑战
背景概述
Synthetic Patient Events数据集由Gretel.ai团队于2024年创建,旨在通过Gretel Navigator生成高度仿真的患者数据,以支持医疗健康领域的研究与应用。该数据集包含7,348条记录,涵盖了患者的基本信息、医疗事件及其相关细节,如患者ID、姓名、出生日期、性别、种族、体重、身高、事件类型、事件日期、医疗提供者名称等。数据集的设计严格遵循隐私保护和数据安全标准,适用于医疗数据科学、机器学习模型训练以及医疗应用开发等场景。其开源许可(Apache 2.0)进一步促进了其在学术和工业界的广泛应用。
当前挑战
Synthetic Patient Events数据集在构建和应用中面临多重挑战。首先,生成高度逼真的患者数据需要平衡数据的多样性与隐私保护,确保数据既能反映真实世界的复杂性,又不会泄露敏感信息。其次,数据集中包含多种数据类型(如数值型、类别型、文本型及嵌套JSON),这对数据处理和分析提出了更高的技术要求。此外,数据集中部分字段存在缺失值(null),这要求研究人员在模型训练和数据分析中具备处理不完整数据的能力。最后,尽管数据集是合成的,但其在医疗领域的应用仍需验证其与实际数据的相似性,以确保研究结果的可靠性和普适性。
常用场景
经典使用场景
在医疗数据科学领域,synthetic_patient_events数据集常用于开发和测试医疗应用程序。其丰富的特征集,包括患者基本信息、医疗事件记录和详细的医疗笔记,为研究人员提供了一个理想的平台,用于模拟真实世界中的医疗数据处理场景。通过该数据集,研究人员可以探索患者数据的匿名化技术,评估数据隐私保护措施的有效性。
解决学术问题
该数据集解决了医疗数据科学中数据隐私与可用性之间的平衡问题。由于医疗数据通常涉及敏感信息,直接使用真实数据存在隐私泄露风险。synthetic_patient_events通过生成合成数据,既保留了真实数据的统计特性,又避免了隐私问题,为研究人员提供了一个安全的研究环境。此外,该数据集还支持医疗事件预测模型的开发,帮助研究人员探索疾病诊断和治疗效果的预测方法。
实际应用
在实际应用中,synthetic_patient_events数据集被广泛用于医疗信息系统的开发和测试。例如,医院可以利用该数据集模拟患者就诊流程,优化电子病历系统的设计。此外,该数据集还可用于培训医疗数据分析师和机器学习工程师,帮助他们熟悉医疗数据的结构和处理流程。在医疗政策研究中,该数据集也被用于评估不同医疗干预措施的效果,为政策制定提供数据支持。
数据集最近研究
最新研究方向
在医疗数据科学领域,synthetic_patient_events数据集的最新研究方向聚焦于利用合成数据技术提升医疗数据的隐私保护和模型训练效率。随着医疗数据隐私法规的日益严格,合成数据成为解决真实患者数据使用限制的关键工具。研究者们正探索如何通过该数据集优化医疗事件预测模型,特别是在疾病诊断和治疗效果评估方面。此外,该数据集还被广泛应用于开发新的数据匿名化技术,以确保在数据共享和分析过程中患者隐私得到充分保护。这些研究不仅推动了医疗数据科学的前沿发展,也为医疗AI模型的训练提供了高质量的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作