No-show appointments

github2021-01-14 更新2024-05-31 收录

下载链接：

https://github.com/BrahimBergougui/P02-Investigate-a-Dataset-of-Medical-appointments

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含关于100k巴西医疗预约的信息，重点关注患者是否出席预约的问题。数据集包含14个变量，如患者ID、预约ID、性别、预约日期、年龄、地理位置、是否参与巴西福利计划等。

This dataset encompasses information on 100,000 Brazilian medical appointments, with a particular focus on whether patients attended their scheduled appointments. The dataset comprises 14 variables, including patient ID, appointment ID, gender, appointment date, age, geographical location, participation in the Brazilian welfare program, among others.

创建时间：

2020-07-27

原始信息汇总

数据集概述

数据集名称

名称: No-show appointments
来源: Kaggle

数据集内容

记录数: 约100,000条医疗预约记录
地理位置: 巴西
关注问题: 患者是否出席预约

数据集变量

PatientId: 患者识别号
AppointmentID: 预约识别号
Gender: 患者性别（M/F）
ScheduledDay: 实际预约日
AppointmentDay: 预约注册日
Age: 患者年龄
Neighborhood: 预约地点（医院位置）
Scholarship: 是否参加巴西福利计划Bolsa Família
Hipertension: 是否患有高血压
Diabetes: 是否患有糖尿病
Alcoholism: 是否患有酒精依赖
Handcap: 是否有特殊需求
SMS_received: 是否收到提醒短信
Show-up: 是否出席（No表示出席，否则为yes）

数据集用途

分析目的: 进行数据分析，探索患者是否出席预约的相关因素
使用工具: pandas和NumPy
报告形式: 使用Markdown格式在Jupyter notebook中分享分析结果

数据集组织

文件组织: 包含分析报告、Python代码和数据集文件
提交方式: 可选择Jupyter notebook或其他格式，需能转换为HTML或PDF以便于分享

搜集汇总

数据集介绍

构建方式

No-show appointments数据集的构建基于巴西医疗预约的实际数据，涵盖了超过10万条医疗预约记录。数据收集过程中，重点关注了患者是否按时赴约的情况，并记录了14个关键变量，包括患者ID、预约ID、性别、预约日期、年龄、社区、是否参与福利计划、是否患有高血压、糖尿病、酒精依赖、是否有特殊需求、是否收到短信提醒以及是否按时赴约。这些数据通过医疗机构的预约系统自动生成，确保了数据的真实性和时效性。

特点

该数据集的特点在于其丰富的信息维度，涵盖了患者的基本信息、健康状况、社会经济背景以及预约行为。特别是‘Show-up’变量，直接反映了患者是否按时赴约，为核心分析提供了重要依据。此外，数据集还包含了患者是否收到短信提醒的信息，为研究外部干预对患者行为的影响提供了可能。数据的多样性和完整性使其成为研究医疗预约行为及其影响因素的理想选择。

使用方法

使用No-show appointments数据集时，首先需通过Python的pandas库加载数据，并进行初步的数据清洗和预处理。随后，可利用NumPy和pandas进行数据分析，探索患者未按时赴约的可能原因及其与其他变量之间的关系。例如，可以分析年龄、性别、健康状况或是否收到短信提醒对患者赴约行为的影响。最终，可通过Jupyter Notebook生成分析报告，结合可视化工具展示研究结果，为医疗机构的预约管理提供数据支持。

背景与挑战

背景概述

No-show appointments数据集由Udacity数据分析师纳米学位项目于2017年创建，旨在探究巴西医疗预约中的患者失约现象。该数据集包含了约10万条医疗预约记录，涵盖了患者的基本信息、预约时间、健康状况以及是否收到短信提醒等14个变量。该数据集的核心研究问题在于分析患者失约的原因及其影响因素，为医疗机构提供决策支持。通过对这些数据的深入分析，研究人员能够识别出导致患者失约的关键因素，从而优化预约管理流程，提高医疗资源的利用效率。该数据集在医疗管理领域具有重要的研究价值，为相关领域的学者和从业者提供了宝贵的数据资源。

当前挑战

No-show appointments数据集在解决医疗预约失约问题的过程中面临多重挑战。首先，数据集中包含的变量虽然丰富，但部分变量如患者的健康状况和是否收到短信提醒等，可能存在数据缺失或不一致的情况，这增加了数据分析的复杂性。其次，患者失约的原因可能涉及多种因素，如社会经济状况、健康状况、预约时间等，如何准确识别这些因素之间的关联性是一个重要的挑战。此外，数据集的构建过程中，如何确保数据的准确性和完整性也是一个关键问题，尤其是在处理大规模医疗数据时，数据清洗和预处理的工作量巨大。这些挑战不仅影响了数据分析的准确性，也对模型的构建和预测能力提出了更高的要求。

常用场景

经典使用场景

No-show appointments数据集广泛应用于医疗预约管理系统的研究中，特别是在分析患者预约后未按时就诊（No-show）的行为模式。研究者通过该数据集，能够深入探讨患者未按时就诊的原因，如年龄、性别、健康状况、是否收到短信提醒等因素对患者行为的影响。这一数据集为医疗机构提供了优化预约管理、减少资源浪费的重要依据。

衍生相关工作

基于No-show appointments数据集，许多经典研究工作得以展开。例如，研究者利用机器学习算法构建了预测患者未按时就诊的模型，并通过特征重要性分析揭示了影响患者行为的关键因素。此外，该数据集还催生了关于医疗资源优化配置、患者行为干预策略等方面的研究，为医疗管理领域的学术进展提供了重要支持。

数据集最近研究