ClinicalTrial Dataset

github2024-05-16 更新2024-05-31 收录

下载链接：

https://github.com/komala-sts/BigDataAnalytics-using-Databricks-PySpark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含临床试验的详细信息，每条记录代表一个单独的临床试验，包括试验ID、赞助商、研究状态、开始和完成日期、研究类型、提交日期以及试验涉及的条件和干预措施。数据集用于数据挖掘和机器学习任务，以分析和可视化临床试验数据。

This dataset contains detailed information on clinical trials, with each record representing an individual clinical trial. It includes trial ID, sponsor, study status, start and completion dates, study type, submission date, as well as the conditions and interventions involved in the trial. The dataset is utilized for data mining and machine learning tasks to analyze and visualize clinical trial data.

创建时间：

2023-08-28

原始信息汇总

数据集概述

Task 1: 临床试验数据分析

数据集名称:
- clinicaltrial_<year>.csv (例如：clinicaltrial_2021.csv, clinicaltrial_2019.csv, clinicaltrial_2020.csv)
- pharma.csv
数据集内容:
- clinicaltrial_<year>.csv: 每行代表一个临床试验，包含试验ID、赞助商、试验状态、开始和完成日期、试验类型、提交日期、涉及的条件和干预措施。
- pharma.csv: 包含制药公司违规记录，重点关注第二列“母公司”。
数据集存储位置:
- /FileStore/tables/clinicaltrial_2021.csv
- /FileStore/tables/pharma.csv
问题陈述:
1. 计算数据集中不同研究的数量。
2. 列出所有研究类型及其频率，按频率从高到低排序。
3. 找出前5个条件及其频率。
4. 找出前10个非制药公司的最常见赞助商及其赞助的临床试验数量。
5. 绘制2021年每月完成的研究数量图表。

Task 2: 机器学习分类模型

数据集名称: FaultDataset.csv
数据集内容: 每行包含二十个振动传感器读数和一个故障标识（0表示无故障，1表示有故障）。
数据集存储位置: /FileStore/tables/FaultDataset.csv
问题陈述:
1. 将数据集加载到Spark DataFrame中，并进行初步探索性分析。
2. 使用MLlib训练决策树分类模型，并评估其性能。
3. 使用MLflow跟踪实验，并在报告中包含Databricks实验UI的截图。

以上为数据集的关键信息概述。

搜集汇总

数据集介绍

构建方式

该临床试验数据集（ClinicalTrial Dataset）的构建基于从ClinicalTrials.gov获取的历史临床试验数据，涵盖了多个年份的临床试验记录。每个记录包含试验的唯一标识符、赞助商、状态、开始和完成日期、试验类型、提交日期、涉及的疾病条件以及探索的干预措施。此外，数据集还结合了来自violationtracker.goodjobsfirst.org的制药公司违规名单，重点关注制药公司的名称。数据以CSV格式提供，便于数据处理和分析。

使用方法

使用该数据集时，用户可以通过PySpark、RDD和Spark SQL进行数据处理和分析。数据集的CSV文件需按照指定路径上传，并命名为特定的表名。用户可以执行探索性数据分析，如计算试验数量、统计各类型试验的频率、识别最常见的疾病条件等。此外，数据集还支持高级分析，如训练分类模型以预测机器故障，或通过MLflow跟踪实验结果。

背景与挑战

背景概述

临床试验数据集（ClinicalTrial Dataset）是由ClinicalTrials.gov提供的一组临床试验数据，涵盖了多个年份的临床试验信息。该数据集的核心研究问题围绕临床试验的各个方面，包括试验的赞助者、状态、开始与完成日期、类型、提交日期、涉及的条件和干预措施等。通过这些数据，研究人员能够深入分析临床试验的分布、趋势以及相关制药公司的行为。该数据集的创建旨在为数据科学家和分析师提供一个丰富的资源，以探索和解决与临床试验相关的复杂问题。

当前挑战

临床试验数据集面临的挑战主要集中在数据处理和分析的复杂性上。首先，数据集包含多个年份的临床试验信息，如何有效整合和清洗这些数据是一个重要挑战。其次，数据中的条件和干预措施以逗号分隔，这增加了数据解析和处理的难度。此外，数据集需要与制药公司违规数据进行关联分析，这要求对数据进行精确匹配和去重。最后，如何在可视化和机器学习模型中有效利用这些数据，以提供有价值的洞察，也是该数据集面临的一大挑战。

常用场景

经典使用场景

ClinicalTrial Dataset的经典使用场景主要集中在临床试验数据的探索性分析和监督学习模型的构建。通过该数据集，研究者可以深入分析不同类型的临床试验、各类疾病的流行情况以及制药公司对试验的赞助情况。此外，数据集还支持对临床试验的时间序列分析，如每月完成试验的数量，从而揭示试验进展的动态变化。

解决学术问题

ClinicalTrial Dataset解决了临床试验数据分析中的多个关键学术问题。首先，它为研究者提供了对临床试验类型和频率的全面统计，有助于理解不同研究设计的应用场景。其次，通过分析疾病和干预措施的频率，研究者可以识别出最常见的治疗领域和方法。此外，该数据集还支持对制药公司行为的分析，揭示非制药公司赞助的临床试验情况，为行业监管和政策制定提供了重要依据。

实际应用

在实际应用中，ClinicalTrial Dataset被广泛用于医疗健康领域的决策支持系统。例如，制药公司可以利用该数据集评估不同疾病领域的研究热点，优化其研发策略。监管机构则可以通过分析试验的完成情况和赞助来源，确保临床试验的透明性和合规性。此外，医疗机构和研究机构也可以利用该数据集进行疾病流行趋势的监测和预测，从而更好地分配医疗资源。

数据集最近研究