CTBench

Name: CTBench
Creator: 伦斯勒理工学院计算机科学系
Published: 2024-06-26 02:52:48
License: 暂无描述

arXiv2024-06-26 更新2024-06-28 收录

下载链接：

https://github.com/nafis-neehal/CTBench_LLM

下载链接

链接失效反馈

官方服务：

资源简介：

CTBench是一个用于评估语言模型在临床试验设计中能力的综合基准。该数据集由伦斯勒理工学院创建，包含两个子数据集：CT-Repo和CT-Pub。CT-Repo包含1690个临床试验的基线特征，数据来源于clinicaltrials.gov；CT-Pub则是从相关出版物中人工收集的100个试验的更全面的基线特征。数据集创建过程中，使用了先进的提示工程技术来生成基线特征。CTBench的应用领域主要集中在临床试验设计，旨在通过AI辅助选择基线特征，提高临床研究的效率和鲁棒性。

CTBench is a comprehensive benchmark for evaluating the capabilities of language models in clinical trial design. Developed by Rensselaer Polytechnic Institute, this dataset comprises two sub-datasets: CT-Repo and CT-Pub. CT-Repo contains 1,690 baseline characteristics of clinical trials sourced from clinicaltrials.gov; CT-Pub, by contrast, consists of more comprehensive baseline characteristics of 100 trials manually collected from relevant academic publications. Advanced prompt engineering techniques were employed during the dataset construction process to generate the baseline characteristics. The primary application scope of CTBench focuses on clinical trial design, aiming to support AI-assisted selection of baseline characteristics and improve the efficiency and robustness of clinical research.

提供机构：

伦斯勒理工学院计算机科学系

创建时间：

2024-06-26

搜集汇总

数据集介绍

构建方式

CTBench 数据集的构建始于从 clinicaltrials.gov 网站上获取 1,690 个临床试验的元数据。这些元数据包括试验的标题、摘要、条件、资格标准、干预措施、主要结果和基线特征等。在此基础上，研究人员手动收集了其中 100 个试验的相关出版物中的基线特征，形成了 'CT-Pub' 数据集。CT-Repo 数据集则包含了所有 1,690 个试验的基线特征，这些特征是通过从 clinicaltrials.gov API 获取的。为了评估语言模型在预测基线特征方面的能力，研究人员开发了两种评估方法：ListMatch-LM 和 ListMatch-BERT。这些方法通过比较模型生成的基线特征列表与实际基线特征列表来进行评估。

特点

CTBench 数据集的主要特点在于其全面性和多样性。它不仅包含了来自 clinicaltrials.gov 的丰富元数据，还包含了从相关出版物中手动收集的基线特征，这些特征对于准确描述研究队列和验证结果至关重要。此外，CTBench 还提供了两种评估方法，ListMatch-LM 和 ListMatch-BERT，这些方法可以有效地比较模型生成的基线特征列表与实际基线特征列表。这使得研究人员可以更准确地评估模型在预测基线特征方面的能力。最后，CTBench 还提供了人类评估者的评估结果，这些评估结果可以作为模型评估的参考。

使用方法

使用 CTBench 数据集时，首先需要了解数据集的结构和内容。CTBench 数据集由两个子数据集组成：CT-Repo 和 CT-Pub。CT-Repo 包含了 1,690 个临床试验的元数据和基线特征，而 CT-Pub 则包含了 100 个试验的更全面的基线特征。研究人员可以使用这些数据集来训练和评估语言模型在预测基线特征方面的能力。具体来说，研究人员可以使用 ListMatch-LM 和 ListMatch-BERT 方法来评估模型生成的基线特征列表与实际基线特征列表的相似度。此外，研究人员还可以使用人类评估者的评估结果来进一步验证模型的性能。

背景与挑战

背景概述

在临床研究中，临床试验（CT）的设计至关重要，而基线特征的选择对于表征研究队列和验证结果具有决定性作用。CTBench数据集的创建旨在评估语言模型（LMs）在辅助临床研究设计方面的能力。该数据集由Nafis Neehal等研究人员于2024年6月提出，他们来自Rensselaer Polytechnic Institute、Albany Medical College和IBM Research等机构。CTBench的核心研究问题是评估AI模型在确定临床试验的基线特征方面的准确性，这些特征通常在CT出版物中展示（例如表1），对于表征研究队列和验证结果至关重要。CTBench的数据集包括从clinicaltrials.gov获取的1,690个临床试验的基线特征，以及从相关出版物中收集的100个临床试验的更全面的基线特征。该数据集对相关领域产生了显著的影响，为评估和改进AI在临床试验设计中的作用提供了重要的工具。

当前挑战

CTBench数据集面临的主要挑战包括：1)所解决的领域问题，即评估AI模型在确定临床试验的基线特征方面的准确性；2)构建过程中所遇到的挑战，包括从clinicaltrials.gov提取的数据的多样性和缺乏标准化语言，这给数据提取和结果分析带来了困难。此外，自动化提出临床试验的基线特征仍然是一个未被充分研究的领域，需要创建相关且功能丰富的数据集来训练和验证LMs。CTBench的创建正是为了解决这些问题，通过提供两个数据集（CT-Repo和CT-Pub）和一个评估框架（ListMatch-LM和ListMatch-BERT），为研究和改进AI在临床试验设计中的作用提供了重要的资源。

常用场景

经典使用场景

CTBench 数据集是用于评估语言模型在辅助临床试验设计方面的能力的基准。给定特定于研究的元数据，CTBench 检验 AI 模型在确定临床试验 (CT) 的基线特征方面的能力，包括从所有参与者中收集的基线特征。基线特征通常在 CT 出版物中展示（通常作为表 1），对于表征研究队列和验证结果至关重要。基线特征，包括混杂因素和协变量，对于涉及观察数据的准确治疗效应估计也是必需的。CTBench 包含两个数据集：“CT-Repo”，包含来自 clinicaltrials.gov 的 1,690 个临床试验的基线特征，以及“CT-Pub”，一个包含 100 个试验的子集，其中包含从相关出版物收集的更全面的基线特征。我们开发了两种基于 LM 的评估方法，用于评估实际基线特征列表与 LM 生成的响应。 “ListMatch-LM” 和 “ListMatch-BERT” 分别使用 GPT-4o 和 BERT 分数（在各个阈值）进行评估。为了建立基线结果，我们使用 LLaMa3-70B-Instruct 和 GPT-4o 在零样本和三样本学习设置中应用高级提示工程技术来生成潜在的基线特征。我们通过 CT-Pub 数据集上的人类在环评估验证了 GPT-4o 作为评估者的性能，其中临床专家确认实际和 LM 生成的特征之间的匹配。我们的结果表明，这是一个有希望的改进方向，为改进 AI 在 CT 设计研究方面的研究提供了巨大的潜力，并可能提高 CT 的有效性和稳健性。

解决学术问题

CTBench 解决了临床试验设计中的学术研究问题，特别是基线特征的确定。基线特征对于表征研究队列和验证结果至关重要，但对于观察性研究，基线特征可以帮助设计研究，通过混杂因素和协变量匹配队列。CTBench 通过使用语言模型来预测临床试验的基线特征，为研究人员提供了更有效和更稳健的临床研究设计支持。此外，CTBench 还解决了现有数据集中基线特征变量报告不标准化和一致的问题，为临床试验设计提供了更准确和可重复的基线特征数据。

衍生相关工作

CTBench 衍生了一些相关的经典工作，包括：1）LLaMa3-70B-Instruct 和 GPT-4o 的评估：CTBench 使用 LLaMa3-70B-Instruct 和 GPT-4o 两种语言模型进行评估，为评估语言模型在临床试验设计方面的能力提供了重要的参考。2）ListMatch-BERT 和 ListMatch-LM 的评估方法：CTBench 开发了两种基于 LM 的评估方法，即 ListMatch-BERT 和 ListMatch-LM，用于评估实际基线特征列表与 LM 生成的响应，为评估语言模型在临床试验设计方面的能力提供了新的思路。3）人类在环评估：CTBench 通过人类在环评估验证了 GPT-4o 作为评估者的性能，为评估语言模型在临床试验设计方面的能力提供了更可靠的评估方法。4）提示工程技术：CTBench 使用高级提示工程技术来生成潜在的基线特征，为开发更先进的语言模型提供了重要的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集