EMBR Sample Data
收藏github2024-11-15 更新2024-11-22 收录
下载链接:
https://github.com/XPawnAI/embr-sample-data
下载链接
链接失效反馈官方服务:
资源简介:
EMBR样本数据集包含100个合成患者记录,这些记录是针对生成式AI优化的结构化医疗数据,所有文件都经过压缩,适合gpt-4o-mini使用。数据集通过Synthea的患者生成器生成,旨在反映现实世界的医疗数据,同时确保通过合成信息保护隐私。
The EMBR Sample Dataset contains 100 synthetic patient records, which are structured medical data optimized for generative AI. All files are compressed and suitable for use with GPT-4o-mini. The dataset is generated via Synthea's patient generator, and it is designed to reflect real-world medical data while ensuring privacy protection through synthetic information.
创建时间:
2024-11-12
原始信息汇总
EMBR Sample Data
数据集概述
- 数据类型: 合成患者记录
- 数据量: 100条合成患者记录
- 数据格式: JSON
- 数据来源: Syntheas Patient Generator
- 数据优化: FHIR数据转换为EMBR格式,优化为生成式AI使用,保留关键医疗细节
数据集特点
- Token效率: 所有文件小于120,000个token,适用于gpt-4o-mini
- 医疗上下文: 数据模拟真实世界患者记录,确保隐私通过合成生成
数据类型及描述
| 数据类型 | 描述 |
|---|---|
| AllergyIntolerance | 记录患者过敏或不耐受信息,包括严重程度和反应细节。 |
| Careplan | 概述管理患者状况的医疗计划,包括目标、行动和责任方。 |
| Condition | 记录患者的临床状况、诊断或健康问题,包括状态和发作细节。 |
| Device | 记录患者使用的医疗设备信息,包括类型和使用细节。 |
| DiagnosticReport | 包含与患者护理和治疗计划相关的诊断测试结果。 |
| Encounter | 记录患者的医疗会诊信息,包括日期、类型和参与者。 |
| ImagingStudy | 详细描述患者进行的影像学检查,包括成像方式和结果摘要。 |
| Immunization | 记录患者接受的免疫接种信息,包括疫苗类型、日期和接种状态。 |
| Medication | 列出患者处方或服用的药物,包括名称、剂量和途径。 |
| MedicationAdministration | 记录患者接受的药物管理信息,包括剂量、时间和方法。 |
| MedicationRequest | 记录患者处方药物的订单或请求,包括处方说明和原因。 |
| Observation | 包含关于患者健康的观察和测量结果,如生命体征和实验室结果。 |
| Patient | 患者的核心人口统计信息,包括姓名、年龄、性别和联系方式。 |
| Procedure | 详细描述患者进行的临床程序,包括结果和备注。 |
| SupplyDelivery | 记录患者接收的医疗相关供应品信息,包括类型和数量。 |
下载
- 100条合成患者记录: 下载.zip文件
- 1000条合成患者记录: 即将推出
许可证
- 许可证类型: Apache License 2.0
- 详细信息: 参见LICENSE文件
搜集汇总
数据集介绍

构建方式
EMBR Sample Data数据集的构建基于Synthea的Patient Generator,该生成器专门用于创建合成患者记录,以反映现实世界的医疗数据。每个合成患者记录都经过FHIR(Fast Healthcare Interoperability Resources)格式的转换,并进一步压缩为EMBR格式,旨在优化生成式AI的使用效率,同时保留关键的医疗细节。这种转换确保了数据在保持临床相关性的同时,显著减少了数据量,使其更适合于大型语言模型(LLM)的应用。
特点
EMBR Sample Data数据集的主要特点在于其高度的令牌效率和医疗上下文的具体性。通过EMBR格式,数据集在减少令牌数量的同时,仍然保留了临床使用所需的关键信息。此外,所有记录均为合成生成,确保了患者隐私的同时,提供了与真实世界医疗数据相似的复杂性。这种设计使得数据集非常适合用于模型训练、评估或作为开发医疗AI工具的参考资源。
使用方法
使用EMBR Sample Data数据集,首先需要安装Python 3.11及OpenAI API密钥。通过pip安装requirements.txt文件中的依赖项后,用户需手动更新.env文件,将示例文件重命名为.env并替换其中的API密钥。随后,可以运行example/summary.py脚本以开始使用数据集。每个.json文件包含一个合成患者记录,这些记录经过优化,适合于生成式AI的使用,同时保留了必要的医疗细节。
背景与挑战
背景概述
EMBR Sample Data数据集由XPawnAI机构主导开发,旨在为生成式AI提供高效的医疗数据。该数据集创建于近期,主要研究人员致力于通过合成患者记录来模拟真实世界的医疗数据,同时确保数据的隐私性和安全性。EMBR(Extracted Medical Bulk Reduction)格式是一种专为医疗应用定制的数据简化方法,旨在保留临床相关信息的同时减少数据量。该数据集的核心研究问题是如何在生成式AI应用中高效利用医疗数据,从而推动医疗AI工具的开发和评估。
当前挑战
EMBR Sample Data数据集面临的主要挑战包括:1) 如何在保持数据隐私的同时,生成高度逼真的合成医疗数据,以确保模型训练的有效性;2) 如何优化数据格式,使其在生成式AI应用中既高效又保留关键的医疗细节;3) 在构建过程中,如何确保数据的一致性和完整性,避免因数据简化而丢失重要信息。此外,该数据集还需应对合成数据与真实数据之间可能存在的差异,以及如何验证合成数据在实际应用中的可靠性和准确性。
常用场景
经典使用场景
EMBR Sample Data 数据集在医疗领域中被广泛用于生成式人工智能的模型训练与评估。其经典使用场景包括但不限于:利用合成患者记录进行疾病预测模型的开发,通过结构化医疗数据优化自然语言处理模型的性能,以及在有限令牌限制下进行高效的医疗数据处理。这些应用场景不仅提升了模型的准确性和效率,还为医疗AI工具的开发提供了坚实的基础。
实际应用
在实际应用中,EMBR Sample Data 数据集被广泛用于开发和测试医疗AI工具。例如,医院和诊所可以利用这些合成数据进行病例分析和诊断辅助系统的训练,而无需担心隐私泄露问题。此外,制药公司和医疗设备制造商也可以使用该数据集来优化其产品和服务,通过模拟真实世界的医疗场景来提升产品的可靠性和有效性。
衍生相关工作
EMBR Sample Data 数据集的推出催生了多项相关研究和工作。例如,研究者们基于该数据集开发了多种疾病预测和诊断模型,显著提升了医疗AI的准确性和实用性。同时,该数据集也被用于探索新的数据压缩和优化技术,以进一步提高生成式人工智能在医疗领域的应用效率。此外,EMBR Sample Data 还激发了关于合成数据在医疗研究中应用的广泛讨论和研究,推动了该领域的理论和实践发展。
以上内容由遇见数据集搜集并总结生成



