TrialBench

Name: TrialBench
Creator: 伊利诺伊大学厄巴纳-香槟分校计算机科学系, 浙江大学计算机科学与技术学院, 斯坦福大学医学院, 浙江大学医药科学创新研究所, 广东省人民医院（广东省医学科学院）大数据中心, 浙江大学药学院, GE医疗, IQVIA, 哈佛医学院信息学, 伦斯勒理工学院计算科学系
Published: 2024-06-30 17:13:10
License: 暂无描述

arXiv2024-06-30 更新2024-07-04 收录

下载链接：

https://github.com/ML2Health/ML2ClinicalTrials/tree/main/AI4Trial

下载链接

链接失效反馈

官方服务：

资源简介：

TrialBench数据集由多个顶尖研究机构联合创建，旨在支持临床试验设计中的多模态AI应用。该数据集包含23个子集，涵盖药物分子、疾病代码、文本等多种数据类型，总数据量庞大。创建过程中，研究团队从ClinicalTrials.gov等来源收集数据，并进行了详细的预处理和特征工程。这些数据集主要应用于预测临床试验的持续时间、患者脱落率、严重不良事件等关键问题，旨在通过AI技术优化临床试验设计，提高新药研发的效率和安全性。

The TrialBench dataset was jointly created by multiple top-tier research institutions, with the objective of supporting multimodal AI applications in clinical trial design. This dataset includes 23 subsets, covering diverse data modalities such as drug molecules, disease codes, text and other types, and has a substantial overall data volume. During the development process, the research team collected data from sources including ClinicalTrials.gov, and performed detailed preprocessing and feature engineering. This dataset is mainly applied to key predictive tasks such as the duration of clinical trials, patient dropout rates and serious adverse events, aiming to optimize clinical trial design via AI technologies and improve the efficiency and safety of new drug R&D.

提供机构：

伊利诺伊大学厄巴纳-香槟分校计算机科学系, 浙江大学计算机科学与技术学院, 斯坦福大学医学院, 浙江大学医药科学创新研究所, 广东省人民医院（广东省医学科学院）大数据中心, 浙江大学药学院, GE医疗, IQVIA, 哈佛医学院信息学, 伦斯勒理工学院计算科学系

创建时间：

2024-06-30

搜集汇总

数据集介绍

构建方式

TrialBench数据集的构建主要依托于ClinicalTrials.gov网站，该网站提供了详尽的临床试验信息，包括研究方案、参与者资格标准以及研究结果等。研究者从ClinicalTrials.gov的XML记录中提取了临床试验的相关元素和属性，并将其转换为适合人工智能模型处理的表格数据格式。此外，数据集的构建还整合了来自DrugBank和TrialTrove的数据，以提供更全面的临床试验信息。数据集包含多模态数据，如药物分子结构、疾病代码、文本描述和分类/数值特征，为研究提供了丰富的数据基础。数据集的构建考虑了多种任务的需求，确保了数据集的可用性和可靠性。

使用方法

使用TrialBench数据集的方法如下：首先，研究者可以从GitHub上下载数据集和相关的代码。其次，研究者可以根据自己的研究需求，选择合适的任务和数据进行研究。数据集提供了多模态数据，包括药物分子结构、疾病代码、文本、分类/数值特征等，适合不同的研究任务。最后，研究者可以使用人工智能模型对数据集进行训练和预测，以解决临床试验设计中的关键问题。

背景与挑战

背景概述

临床试验是开发新医疗治疗方法的关键步骤，涉及评估其安全性、适当剂量和对人体特定疾病的治疗效果。然而，这些探索性试验往往耗时费力，成本高昂，且成功率较低。为应对这些挑战， TrialBench 数据集应运而生，该数据集由陈金泰、胡瑶军、王悦等研究人员于 2024 年创建，旨在通过提供多模态数据和八个关键预测挑战，为人工智能在临床试验设计中的应用提供支持。该数据集涵盖了药物分子、疾病代码、文本、分类/数值特征等多种数据类型，并针对临床试验持续时间、患者脱落率、严重不良事件、死亡率、试验批准结果、试验失败原因、药物剂量和资格标准设计等任务进行了精心设计。 TrialBench 的发布对临床试验研究领域产生了深远影响，为加速医疗解决方案的开发提供了有力支持。

当前挑战

尽管 TrialBench 数据集为临床试验设计带来了巨大潜力，但在实际应用中仍面临一些挑战。首先，临床试验数据的多模态特性需要人工智能模型能够有效融合和处理不同类型的数据，例如药物分子、疾病代码、文本和分类/数值特征。其次，临床试验设计中涉及的预测任务通常具有不确定性，例如患者脱落率、严重不良事件和死亡率等，这些任务的预测准确性受到多种因素的影响，包括患者特征、治疗方案和试验设计等。此外，临床试验数据的收集和整理需要医疗专家和人工智能专家的深度合作，以确保数据的质量和可靠性。最后，临床试验设计中的一些任务，如资格标准设计和药物剂量寻找，需要人工智能模型能够生成自然语言文本，这需要先进的自然语言处理技术。因此，TrialBench 数据集的应用需要克服这些挑战，以充分发挥其在临床试验设计中的潜力。

常用场景

经典使用场景

在临床试验设计中，TrialBench数据集被广泛用于预测试验的持续时间、患者的脱落率、严重不良事件的发生概率、死亡率、试验的批准结果、试验失败的原因、入组标准的设计以及药物剂量的确定。这些预测任务可以帮助制药公司在临床试验的不同阶段做出更加明智的决策，从而优化资源分配、降低风险并提高试验的成功率。

解决学术问题

TrialBench数据集解决了临床试验中数据收集复杂、问题定义困难的问题。该数据集涵盖了多模态数据，如药物分子结构、疾病代码、文本描述、分类/数值特征等，并为8个关键预测任务提供了基本验证方法，确保数据集的可用性和可靠性。这些数据集的开放获取将促进先进的AI方法在临床试验设计中的应用，从而推动临床试验研究的发展，加速医疗解决方案的开发。

实际应用

TrialBench数据集在实际应用中，可以辅助制药公司进行临床试验的设计和管理工作。例如，通过预测试验的持续时间，公司可以更准确地估计成本，规划试验地点和人员配置，从而优化资源分配。此外，预测患者的脱落率可以帮助公司采取预防措施，减少试验中的损失。预测严重不良事件和死亡率可以帮助公司评估药物的安全性，确保患者的安全。预测试验的批准结果可以帮助公司优先考虑更有可能成功的试验，提高投资回报率。

数据集最近研究