USA_Presc_Medicare_Data_2021

github2022-12-08 更新2024-05-31 收录

下载链接：

https://github.com/judeleonard/Prescriber-ETL-data-pipeline

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含美国医疗处方者的信息，包括他们的城市、经验年数、每种处方药物的成本等。数据以两种格式提供，包括parquet格式的城市维度表和csv格式的事实表，用于在Spark中加载和处理。

This dataset contains information about U.S. medical prescribers, including their cities, years of experience, and the cost of each prescribed medication. The data is provided in two formats: a city dimension table in Parquet format and a fact table in CSV format, designed for loading and processing in Spark.

创建时间：

2022-12-05

原始信息汇总

数据集概述

数据集内容

包含美国医疗处方者的信息，如所在城市、工作经验年数、每种处方药物的成本等。
数据分为两个格式：city dimensions表（Parquet格式）和fact表（CSV格式），两者具有关联性。

数据集大小

约4GB。

数据处理

使用Pyspark进行数据预处理、清洗和转换。
使用Python进行数据提取和加载。
通过Spark RDD处理和转换数据，提取洞察。

数据集用途

用于构建BI仪表盘，展示城市报告和处方者报告。

数据集结构

city dimensions表：存储城市维度信息。
fact表：存储处方者信息。

数据集处理组件

城市转换/报告：
- 过滤无订阅者的城市记录。
- 计算每个城市的邮政编码数量。
- 计算每个城市的总交易量。
- 计算每个城市分配的处方者数量。
处方者转换/报告：
- 过滤20至50年工作经验的处方者。
- 根据各州的交易量排名处方者。
- 选择每个州的前5名处方者。

数据集运行状态

数据处理管道已成功执行，并计划每周运行一次。

数据集可视化

使用Apache Superset展示城市报告和处方者报告的仪表盘。

搜集汇总

数据集介绍

构建方式

USA_Presc_Medicare_Data_2021数据集的构建过程采用了先进的数据工程技术，结合了Apache Airflow、Pyspark和Apache Superset等工具。数据集主要包含两个部分：城市维度表（parquet格式）和事实表（csv格式），分别存储了美国医疗处方者的城市信息及其处方药物的详细数据。通过Pyspark进行数据预处理、清洗和转换，数据被加载到Amazon S3和Azure Blob等云存储中，并最终通过Postgres数据库进行存储和管理。整个数据处理流程通过Docker容器化技术进行部署，确保了数据处理的灵活性和可扩展性。

特点

该数据集的特点在于其丰富的信息维度和高效的数据处理能力。数据集不仅包含了处方者的基本信息，还详细记录了其所在城市、工作经验年限以及每种处方药物的成本等关键数据。通过Pyspark的强大计算能力，数据集能够支持大规模数据的快速处理和分析，尤其适用于医疗领域的深度数据挖掘和商业智能分析。此外，数据集的结构设计合理，支持多种数据格式的存储和查询，便于用户进行多维度的数据探索和可视化分析。

使用方法

使用USA_Presc_Medicare_Data_2021数据集时，用户可以通过Apache Airflow进行数据管道的自动化调度和管理，确保数据处理的及时性和准确性。数据集支持通过Pyspark进行数据清洗和转换，用户可以根据需求对数据进行过滤、排序和聚合等操作。处理后的数据可以通过Apache Superset进行可视化展示，生成直观的商业智能仪表盘。此外，数据集还支持通过Postgres数据库进行查询和分析，用户可以根据具体的业务需求，灵活地提取和利用数据中的关键信息。

背景与挑战

背景概述

USA_Presc_Medicare_Data_2021数据集聚焦于美国医疗处方者的信息，包括其所在城市、从业年限及每种处方药物的成本等关键数据。该数据集由两个主要部分组成：以Parquet格式存储的城市维度表和以CSV格式存储的事实表，后者详细记录了处方者的相关信息。此数据集旨在通过Apache Airflow、PySpark和Apache Superset等技术，构建一个端到端的数据处理管道，以支持大规模数据的处理与洞察提取。该项目的核心研究问题在于如何高效地处理和转换约4GB的数据量，以生成有价值的业务洞察，进而支持医疗决策和资源分配。

当前挑战

在构建USA_Presc_Medicare_Data_2021数据集的过程中，面临的主要挑战包括数据清洗与转换的复杂性。由于数据来源于多个格式和结构，如何确保数据的一致性和准确性成为关键问题。此外，数据量庞大且涉及多个维度（如城市、处方者、药物成本等），如何在有限的计算资源下高效处理这些数据，也是技术实现中的一大挑战。在领域问题方面，该数据集旨在解决医疗资源分配和处方行为分析的难题，但如何从海量数据中提取出有意义的模式，并确保分析结果的可靠性和可解释性，仍需进一步探索。

常用场景

经典使用场景

USA_Presc_Medicare_Data_2021数据集广泛应用于医疗保健领域的数据分析和决策支持。通过该数据集，研究人员能够深入分析美国医疗处方者的行为模式、药物成本分布以及城市间的医疗资源分配情况。数据集的结构化设计使得其能够与多种大数据处理工具（如Apache Spark）无缝集成，从而高效地进行数据清洗、转换和可视化。

解决学术问题

该数据集为学术界提供了丰富的研究素材，特别是在医疗资源优化、药物经济学和处方行为分析等领域。通过分析处方者的经验年限、药物成本等关键指标，研究者能够揭示医疗系统中的潜在问题，如资源分配不均、药物成本过高等。这些研究成果为政策制定者提供了科学依据，有助于推动医疗系统的改进和优化。

衍生相关工作

基于该数据集，许多经典研究工作得以展开。例如，研究者利用该数据集开发了基于Spark的ETL管道，实现了数据的自动化处理和报告生成。此外，该数据集还催生了多个开源项目，如基于Apache Airflow的调度系统和基于Docker的容器化部署方案，这些工作极大地提升了数据处理的效率和可扩展性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集