Blood Donation Registry — Synthetic Donors, Prevalence & Compatibility

github2025-12-27 更新2026-01-05 收录

下载链接：

https://github.com/tarekmasryo/blood-donation-registry-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库提供了一个合成的血液捐赠操作数据集，适用于高级笔记本和决策分析：从探索性数据分析（EDA）到建模、校准、操作阈值、外展政策和洞察。数据集包括捐赠者快照（含资格/延期、捐赠历史、稀有血型、国家流行率和RBC输血兼容性（ABO/Rh））。

This repository provides a synthetic operational blood donation dataset tailored for advanced Jupyter notebooks and decision analytics, spanning exploratory data analysis (EDA), modeling, calibration, operational thresholds, outreach policies, and actionable insights. The dataset includes donor snapshots covering eligibility/deferral status, donation history, rare blood types, national prevalence rates, and RBC transfusion compatibility (ABO/Rh matching).

创建时间：

2025-12-27

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Blood Donation Registry — Synthetic Donors, Prevalence & Compatibility
数据集地址：https://github.com/tarekmasryo/blood-donation-registry-dataset
数据集性质：合成数据，适用于实验与教学，非临床/医学真实数据。
数据规模：主表包含30,000行，27列。
许可协议：CC BY 4.0
作者：Tarek Masryo

数据集文件构成

data/blood_donation_registry_ml_ready.csv
- 描述：供体级别快照数据。
- 规模：30,000行 × 27列。
data/blood_population_distribution.csv
- 描述：国家流行率与人口数据。
- 规模：39行 × 12列。
data/blood_compatibility_lookup.csv
- 描述：红细胞（RBC）兼容性矩阵。
- 规模：64行 × 4列。
data/data_dictionary.csv
- 描述：列定义、类型、范围及缺失值规则。

主表（供体快照）结构

身份与地理信息

donor_id（唯一标识）、country_code、region

供体人口统计信息

age、sex（M/F）、bmi
smoker（0/1）、chronic_condition_flag（0/1）

资格与延期信息

eligibility_status：eligible、temporary_deferral、permanent_deferral
eligible_to_donate（0/1）
deferral_reason：age_out_of_range、bmi_out_of_range、chronic_condition（符合资格时缺失）

献血行为与历史

preferred_site：hospital、mobile_unit、community_camp
donation_count_last_12m、lifetime_donation_count
first_donation_year、years_since_first_donation
last_donation_date、recency_days
is_regular_donor（0/1）、donor_age_at_first_donation

血液相关信息

blood_type（8种类型）、is_rare_type（0/1）
blood_type_country_prevalence（从流行率表连接获得）

工程化评分（可选）

donation_propensity_score（数值型基线信号）

目标列

donated_next_6m（0/1）
next_6m_donation_count（0–3）

文件关联关系

blood_donation_registry_ml_ready.csv.country_code 与 blood_population_distribution.csv.country_code 关联。
blood_donation_registry_ml_ready.csv.blood_type_country_prevalence 派生自匹配的国家流行率行。
blood_compatibility_lookup.csv 定义了供体与受者血型之间的红细胞兼容性规则。

建模注意事项

donated_next_6m 派生自 next_6m_donation_count → 仅使用一个目标变量。
eligible_to_donate 与 eligibility_status 重叠 → 保留一个以简化基线模型。
eligible_to_donate == 0 意味着 donated_next_6m == 0 → 对于行为建模，考虑在 eligible_to_donate == 1 的数据上训练。
donation_propensity_score 是一个强工程化信号 → 可用于排序/校准基线，但在“仅特征”基准测试中应排除。

数据质量预期

donor_id 唯一（无重复）。
无重复行。
recency_days 与 as_of_date - last_donation_date 一致。
country_code 值与流行率表匹配。
兼容性查找表涵盖所有8×8供体/受者对。

快速开始示例

python import pandas as pd

donors = pd.read_csv("data/blood_donation_registry_ml_ready.csv") pop = pd.read_csv("data/blood_population_distribution.csv") compat = pd.read_csv("data/blood_compatibility_lookup.csv")

示例：用国家人口数据丰富供体信息

donors_pop = donors.merge(pop[["country_code", "population_size"]], on="country_code", how="left") print(donors.shape, donors_pop.shape)

搜集汇总

数据集介绍

构建方式

在血液捐献管理领域，数据集的构建通常需要兼顾真实性与隐私保护。本数据集采用合成数据生成技术，模拟了包含三万条记录的捐献者档案，涵盖身份地理信息、捐献者特征、资格状态、捐献历史及血型背景等多个维度。通过精心设计的变量结构，数据集不仅模拟了捐献者的个体行为轨迹，还整合了国家层面的血型流行率数据与红细胞兼容性矩阵，形成了多层次关联的数据生态系统。数据生成过程严格遵循逻辑一致性原则，确保各字段间的内在关联符合医学常识与业务逻辑，为后续分析提供了可靠的基础框架。

特点

该数据集展现出多模态融合的显著特点，将捐献者微观行为数据与宏观流行病学统计有机结合。核心特征体现在其完备的字段体系上，不仅包含基础人口统计学变量，还特别设计了资格状态分类、捐献频率指标以及稀有血型标识等专业维度。数据集中嵌入了经过工程化处理的捐献倾向评分，为机器学习模型提供了强基准信号。同时，数据集通过明确的表格关联机制，实现了捐献者档案、国家流行率分布和血型兼容性规则的三维联动，支持从个体预测到群体决策的多尺度分析需求。

使用方法

针对血液捐献运营的决策支持场景，数据集支持多种分析范式。研究者可基于二分类任务预测未来六个月的捐献可能性，或通过计数回归模型估计捐献频率。在建模过程中，需注意避免数据泄露风险，例如区分衍生变量间的逻辑依赖关系，并合理处理工程化特征的使用策略。数据集鼓励采用生产导向的决策策略分析，允许用户根据预算约束设定运营阈值，并评估不同细分群体间的校准稳定性。通过配套的快速启动代码，用户能够便捷地完成数据加载与表连接操作，迅速开展探索性分析与模型构建工作。

背景与挑战

背景概述

在公共卫生与血液管理领域，高效且安全的血液捐献系统对于保障医疗用血至关重要。'Blood Donation Registry — Synthetic Donors, Prevalence & Compatibility'数据集由Tarek Masryo创建，旨在为数据科学和决策分析提供合成数据支持。该数据集模拟了全球范围内的献血者注册信息，涵盖捐献者人口统计学特征、献血历史、血液类型分布及红细胞兼容性规则，核心研究问题聚焦于通过机器学习模型预测献血者未来行为、优化献血招募策略，并提升稀有血型资源的匹配效率。作为开源合成数据，它避免了真实医疗数据的隐私与伦理限制，为教育、算法开发和政策模拟提供了安全且标准化的实验平台，推动了血液管理领域的数据驱动决策研究。

当前挑战

该数据集致力于解决血液捐献管理中的核心挑战：如何精准预测个体献血意愿与频率，以优化献血招募资源分配，并确保稀有血型供需平衡。构建过程中面临多重挑战：一是合成数据需在保持统计真实性的同时，模拟复杂的献血者行为模式，如捐献间隔、资格变动与地理差异；二是需整合多源信息，包括国家层面的血型流行率与红细胞兼容性矩阵，确保数据内在逻辑一致且无泄露；三是设计适用于机器学习任务的工程特征，如捐献倾向评分，需避免引入过强信号导致模型评估偏差。这些挑战要求数据构建者深入理解领域知识，并在合成过程中平衡仿真度与实验安全性。

常用场景

经典使用场景

在血液捐献管理领域，该数据集为机器学习模型开发提供了标准化实验平台，尤其适用于预测个体在未来六个月内是否参与捐献的二元分类任务。研究者可基于捐赠者的人口统计学特征、历史捐献记录及健康状况等变量，构建预测模型以评估捐献倾向，并通过ROC-AUC、PR-AUC等指标验证模型性能。这一场景不仅模拟了真实血液中心的捐赠者行为分析流程，也为算法比较和特征工程研究提供了可控环境。

实际应用

在实际操作中，该数据集可辅助血液中心设计精准化的捐献者招募方案，例如基于预测模型识别高倾向捐赠群体并制定差异化宣传策略。同时，结合血型流行度与兼容性矩阵，能够优化库存管理，提升稀有血型资源的匹配效率。这些应用不仅有助于降低献血活动运营成本，也为应急血液调配提供了数据驱动的决策支持。

衍生相关工作

围绕该数据集衍生的经典工作主要包括捐献行为预测模型的比较研究、基于成本敏感学习的招募政策优化，以及兼容性感知的血型匹配算法探索。例如，研究者常利用其构建逻辑回归、随机森林等基线模型，进而开发集成学习或深度学习框架以提升预测准确性；此外，结合操作阈值分析与校准曲线评估，推动了捐赠者生命周期价值管理等跨学科方法的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集