blood-transfusion-safety
收藏Hugging Face2026-02-12 更新2026-02-13 收录
下载链接:
https://huggingface.co/datasets/electricsheepafrica/blood-transfusion-safety
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为'血液输血安全',是一个合成数据集,模拟了撒哈拉以南非洲(SSA)三种场景下的输血安全情况。数据集涵盖了供血者类型、TTI筛查(包括HIV、HBV、HCV和梅毒)、交叉配血、血液可用性、成分分离、输血反应和质量指标等多个方面。数据参数基于世界卫生组织(WHO)的血液安全数据和SSA输血研究,具体参数证据在README中以表格形式列出。数据集提供三种配置:safe_transfusion、basic_transfusion(默认配置)和unsafe_transfusion,数据规模在10K到100K之间。数据集适用于表格分类任务,语言为英语,标签包括实验室、输血、血液安全等。使用示例和参考文献均在README中提供,数据集采用CC-BY-4.0许可协议。
创建时间:
2026-02-11
原始信息汇总
数据集概述:Blood Transfusion Safety
基本信息
- 数据集名称:Blood Transfusion Safety
- 发布者:electricsheepafrica
- 许可证:CC-BY-4.0
- 主要任务类别:表格分类
- 语言:英语
- 数据规模:10K<n<100K
- 标签:laboratory, blood-transfusion, blood-safety, TTI-screening, synthetic, sub-saharan-africa
数据集描述
这是一个模拟撒哈拉以南非洲三种场景下输血安全的合成数据集。数据集捕获了供者类型、经血传播感染筛查(HIV/HBV/HCV/梅毒)、交叉配血、血液可用性、成分分离、输血反应和质量指标等信息。数据集参数基于世界卫生组织的血液安全数据和SSA输血研究。
数据集配置
数据集包含三个配置:
- safe_transfusion
- 数据文件:
data/transfusion_safe_transfusion.csv
- 数据文件:
- basic_transfusion (默认配置)
- 数据文件:
data/transfusion_basic_transfusion.csv
- 数据文件:
- unsafe_transfusion
- 数据文件:
data/transfusion_unsafe_transfusion.csv
- 数据文件:
参数化依据
| 参数 | 值 | 来源 | 年份 |
|---|---|---|---|
| SSA血液采集量 | ~500万单位/年(需求量为1500万) | WHO Blood Safety | 2023 |
| SSA自愿献血者比例 | ~55% | WHO | 2023 |
| 进行全部4项TTI筛查的国家比例 | 54% | Tapko et al. Vox Sanguinis | 2019 |
| 供者HIV感染率 | 0.5-8% | Tapko et al. | 2019 |
| 供者HBV感染率 | 3-15% | Tapko et al. | 2019 |
| 不适当输血比例 | 20-50% | Eichbaum et al. Blood Adv | 2019 |
| 输血反应发生率 | 0.5-3% | Eichbaum et al. | 2019 |
使用方式
python from datasets import load_dataset ds = load_dataset("electricsheepafrica/blood-transfusion-safety", name="basic_transfusion") df = ds[train].to_pandas()
参考文献
- WHO (2023). Blood safety and availability fact sheet
- Tapko JB et al. (2019). Blood safety WHO AFRO. Vox Sanguinis. DOI: 10.1111/vox.12817
- Bloch EM et al. (2012). Transfusion safety Africa. Transfusion. DOI: 10.1111/j.1537-2995.2012.03598.x
- Eichbaum Q et al. (2019). Global transfusion practice. Blood Adv. DOI: 10.1182/bloodadvances.2018024737
搜集汇总
数据集介绍

构建方式
在血液安全研究领域,合成数据的生成成为弥补真实数据稀缺的重要途径。本数据集基于世界卫生组织发布的血液安全数据及撒哈拉以南非洲地区的输血研究文献,通过参数化建模构建而成。其核心参数涵盖了献血者类型、经输血传播感染筛查覆盖率、交叉配血结果、血液成分分离情况以及输血反应发生率等多个维度,精确反映了该地区血液采集、筛查与使用的现实状况。数据生成过程严格遵循文献中的统计证据,确保了合成数据与真实世界情境的高度一致性。
特点
该数据集聚焦于撒哈拉以南非洲地区的血液安全场景,通过三个独立配置分别模拟安全输血、基础输血及不安全输血的不同情境。其显著特点在于高度结构化的表格形式,涵盖了从献血者筛查到输血后反应的完整流程指标。数据规模介于一万至十万条之间,具备足够的统计效力。作为合成数据集,它在保护隐私的同时,提供了可用于模型训练与政策模拟的丰富特征,特别是对经输血传播感染筛查覆盖率与血液供应短缺等关键公共卫生议题的刻画尤为细致。
使用方法
在机器学习与公共卫生分析的应用中,该数据集主要服务于表格分类任务。使用者可通过Hugging Face的`datasets`库便捷加载,并选择`basic_transfusion`等特定配置。加载后的数据可轻松转换为Pandas DataFrame格式,便于进行特征工程、模型训练与评估。研究人员可利用其模拟不同输血策略的效果,或开发预测输血安全风险的分类模型,为提升血液安全管理和临床决策支持提供数据基础。
背景与挑战
背景概述
在撒哈拉以南非洲地区,血液安全与输血实践长期面临严峻挑战,包括血液供应短缺、经输血传播感染筛查不足以及不适当输血现象频发。为系统研究该区域输血安全的关键问题,Electric Sheep Africa机构于2023年基于世界卫生组织及多项前沿研究数据,构建了血液输血安全合成数据集。该数据集通过参数化建模,精准模拟了三种典型输血场景,涵盖了供体类型、TTI筛查、交叉配血、血液成分分离及输血反应等核心质量指标,旨在为公共卫生决策与机器学习应用提供高质量、可扩展的数据基础,推动区域血液安全管理的科学化与标准化进程。
当前挑战
该数据集致力于解决撒哈拉以南非洲地区输血安全中的核心挑战,包括血液供应严重不足、经输血传播感染的高风险以及临床输血实践的不规范性。构建过程中,研究人员需克服真实医疗数据稀缺与隐私限制的障碍,通过合成数据生成技术,在确保统计有效性的同时,精确反映区域特异性流行病学参数与临床实践差异。此外,数据集需平衡不同输血场景的表示,整合多源异构参数,并建立可靠的验证机制,以保障其在模拟复杂输血链与评估干预策略中的科学效用。
常用场景
经典使用场景
在血液安全研究领域,该数据集被广泛应用于模拟撒哈拉以南非洲地区的输血安全场景。研究者利用其结构化特征,如供体类型、经血传播感染筛查结果、交叉配血状态及输血反应等,构建机器学习模型以预测输血安全性,从而评估不同干预措施对降低输血风险的影响。
解决学术问题
该数据集有效解决了血液安全研究中数据稀缺与地域代表性不足的学术难题。通过合成数据模拟真实世界参数,它支持对经血传播感染筛查覆盖率、不适当输血率等关键指标的量化分析,为制定区域性血液安全策略提供了实证基础,推动了公共卫生决策的科学化进程。
衍生相关工作
围绕该数据集衍生的经典工作包括基于机器学习的输血风险预测模型开发,以及结合世界卫生组织指南的血液安全干预效果模拟研究。这些工作进一步拓展了数据在公共卫生建模中的应用,促进了跨学科合作,为全球血液安全体系的完善贡献了方法论创新。
以上内容由遇见数据集搜集并总结生成



