five

USA_Presc_Medicare_Data_2021

收藏
github2022-12-08 更新2024-05-31 收录
下载链接:
https://github.com/judeleonard/Prescriber-ETL-data-pipeline
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含美国医疗处方者的信息,包括他们的城市、经验年数、每种处方药物的成本等。数据以两种格式提供,包括parquet格式的城市维度表和csv格式的事实表,用于在Spark中加载和处理。

This dataset contains information about U.S. medical prescribers, including their cities, years of experience, and the cost of each prescribed medication. The data is provided in two formats: a city dimension table in Parquet format and a fact table in CSV format, designed for loading and processing in Spark.
创建时间:
2022-12-05
原始信息汇总

数据集概述

数据集内容

  • 包含美国医疗处方者的信息,如所在城市、工作经验年数、每种处方药物的成本等。
  • 数据分为两个格式:city dimensions表(Parquet格式)和fact表(CSV格式),两者具有关联性。

数据集大小

  • 约4GB。

数据处理

  • 使用Pyspark进行数据预处理、清洗和转换。
  • 使用Python进行数据提取和加载。
  • 通过Spark RDD处理和转换数据,提取洞察。

数据集用途

  • 用于构建BI仪表盘,展示城市报告和处方者报告。

数据集结构

  • city dimensions表:存储城市维度信息。
  • fact表:存储处方者信息。

数据集处理组件

  • 城市转换/报告
    • 过滤无订阅者的城市记录。
    • 计算每个城市的邮政编码数量。
    • 计算每个城市的总交易量。
    • 计算每个城市分配的处方者数量。
  • 处方者转换/报告
    • 过滤20至50年工作经验的处方者。
    • 根据各州的交易量排名处方者。
    • 选择每个州的前5名处方者。

数据集运行状态

  • 数据处理管道已成功执行,并计划每周运行一次。

数据集可视化

  • 使用Apache Superset展示城市报告和处方者报告的仪表盘。
搜集汇总
数据集介绍
main_image_url
构建方式
USA_Presc_Medicare_Data_2021数据集的构建过程采用了先进的数据工程技术,结合了Apache Airflow、Pyspark和Apache Superset等工具。数据集主要包含两个部分:城市维度表(parquet格式)和事实表(csv格式),分别存储了美国医疗处方者的城市信息及其处方药物的详细数据。通过Pyspark进行数据预处理、清洗和转换,数据被加载到Amazon S3和Azure Blob等云存储中,并最终通过Postgres数据库进行存储和管理。整个数据处理流程通过Docker容器化技术进行部署,确保了数据处理的灵活性和可扩展性。
特点
该数据集的特点在于其丰富的信息维度和高效的数据处理能力。数据集不仅包含了处方者的基本信息,还详细记录了其所在城市、工作经验年限以及每种处方药物的成本等关键数据。通过Pyspark的强大计算能力,数据集能够支持大规模数据的快速处理和分析,尤其适用于医疗领域的深度数据挖掘和商业智能分析。此外,数据集的结构设计合理,支持多种数据格式的存储和查询,便于用户进行多维度的数据探索和可视化分析。
使用方法
使用USA_Presc_Medicare_Data_2021数据集时,用户可以通过Apache Airflow进行数据管道的自动化调度和管理,确保数据处理的及时性和准确性。数据集支持通过Pyspark进行数据清洗和转换,用户可以根据需求对数据进行过滤、排序和聚合等操作。处理后的数据可以通过Apache Superset进行可视化展示,生成直观的商业智能仪表盘。此外,数据集还支持通过Postgres数据库进行查询和分析,用户可以根据具体的业务需求,灵活地提取和利用数据中的关键信息。
背景与挑战
背景概述
USA_Presc_Medicare_Data_2021数据集聚焦于美国医疗处方者的信息,包括其所在城市、从业年限及每种处方药物的成本等关键数据。该数据集由两个主要部分组成:以Parquet格式存储的城市维度表和以CSV格式存储的事实表,后者详细记录了处方者的相关信息。此数据集旨在通过Apache Airflow、PySpark和Apache Superset等技术,构建一个端到端的数据处理管道,以支持大规模数据的处理与洞察提取。该项目的核心研究问题在于如何高效地处理和转换约4GB的数据量,以生成有价值的业务洞察,进而支持医疗决策和资源分配。
当前挑战
在构建USA_Presc_Medicare_Data_2021数据集的过程中,面临的主要挑战包括数据清洗与转换的复杂性。由于数据来源于多个格式和结构,如何确保数据的一致性和准确性成为关键问题。此外,数据量庞大且涉及多个维度(如城市、处方者、药物成本等),如何在有限的计算资源下高效处理这些数据,也是技术实现中的一大挑战。在领域问题方面,该数据集旨在解决医疗资源分配和处方行为分析的难题,但如何从海量数据中提取出有意义的模式,并确保分析结果的可靠性和可解释性,仍需进一步探索。
常用场景
经典使用场景
USA_Presc_Medicare_Data_2021数据集广泛应用于医疗保健领域的数据分析和决策支持。通过该数据集,研究人员能够深入分析美国医疗处方者的行为模式、药物成本分布以及城市间的医疗资源分配情况。数据集的结构化设计使得其能够与多种大数据处理工具(如Apache Spark)无缝集成,从而高效地进行数据清洗、转换和可视化。
解决学术问题
该数据集为学术界提供了丰富的研究素材,特别是在医疗资源优化、药物经济学和处方行为分析等领域。通过分析处方者的经验年限、药物成本等关键指标,研究者能够揭示医疗系统中的潜在问题,如资源分配不均、药物成本过高等。这些研究成果为政策制定者提供了科学依据,有助于推动医疗系统的改进和优化。
衍生相关工作
基于该数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了基于Spark的ETL管道,实现了数据的自动化处理和报告生成。此外,该数据集还催生了多个开源项目,如基于Apache Airflow的调度系统和基于Docker的容器化部署方案,这些工作极大地提升了数据处理的效率和可扩展性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作