ClinicBench

github2024-11-11 更新2024-11-28 收录

下载链接：

https://github.com/AI-in-Health/ClinicBench

下载链接

链接失效反馈

官方服务：

资源简介：

ClinicBench是一个综合基准，包含22个大型语言模型在临床环境中的3个场景、11个任务和17个数据集上的表现。它解决了现有工作中对大型语言模型在临床决策中的评估不足的问题，特别是开放式决策、长文档处理和新药分析等复杂临床任务。

ClinicBench is a comprehensive benchmark that evaluates the performance of 22 large language models across 3 clinical scenarios and 11 tasks, utilizing 17 datasets in clinical settings. It addresses the research gap in existing literature regarding the evaluation of large language models for clinical decision-making, particularly complex clinical tasks such as open-ended decision-making, long document processing and new drug analysis.

创建时间：

2024-10-29

原始信息汇总

ClinicBench 数据集概述

数据集简介

ClinicBench 是一个用于评估大型语言模型（LLMs）在临床决策中表现的全面基准。该基准收集了11个现有的数据集，并构建了6个新的数据集，涵盖了临床语言生成、理解和推理任务。

数据集内容

现有数据集：包含11个数据集，涵盖临床语言生成、理解和推理任务。
新构建数据集：包含6个新的数据集，涉及开放式决策、长文档处理和新药分析等复杂临床任务。

评估模型

评估模型数量：22个LLMs。
评估设置：零样本（zero-shot）和少样本（few-shot）设置。

主要发现

商业LLMs：闭源商业LLMs（如GPT-4）在所有任务和数据集上表现优于所有现有的开源公共LLMs。
任务表现：LLMs在提供选项的考试式QA任务中表现优异，但在开放式决策、生成和理解任务中表现较差。
医学LLMs：在医学数据上微调LLMs可以提高其推理和理解能力，但可能会降低其总结能力。
临床任务：现有LLMs在处理复杂临床任务时表现不佳，但商业LLMs的性能下降较少。
少样本学习：少样本学习可以提高推理和生成性能，但会损害LLMs的理解性能。
临床实用性：医学LLMs比通用LLMs产生更多事实性和安全的响应，但在生成完整和用户偏好的响应方面表现较差。
指令微调：不同类型的IFT数据从不同方面带来改进；更多样化的IFT数据可以带来更好的医学LLMs。

引用

bibtex @inproceedings{Liu2024ClinicBench, title={Large Language Models Are Poor Clinical Decision-Makers: A Comprehensive Benchmark}, author={Fenglin Liu, Zheng Li, Hongjian Zhou, Qingyu Yin, Jingfeng Yang, Xianfeng Tang, Chen Luo, Ming Zeng, Haoming Jiang, Yifan Gao, Priyanka Nigam, Sreyashi Nag, Bing Yin, Yining Hua, Xuan Zhou, Omid Rohanian, Anshul Thakur, Lei Clifton, David A. Clifton}, booktitle={Conference on Empirical Methods in Natural Language Processing (EMNLP)}, year={2024} }

搜集汇总

数据集介绍

构建方式

在医疗领域，大型语言模型（LLMs）的应用日益受到关注。为了全面评估LLMs在临床决策中的表现，研究团队构建了ClinicBench数据集。该数据集首先整合了11个现有的涵盖临床语言生成、理解和推理任务的数据集，随后进一步创建了6个新的复杂临床任务数据集，如开放式决策制定、长文档处理和新药分析。通过这种方式，ClinicBench旨在提供一个全面的基准，以评估LLMs在实际临床环境中的适用性。

使用方法

使用ClinicBench数据集时，研究者可以针对不同的临床任务和场景，评估和比较不同LLMs的性能。数据集提供了详细的任务描述和评估指标，支持零样本和少样本学习设置下的模型评估。此外，研究者可以通过访问提供的医疗LLM排行榜，实时跟踪和比较不同模型的表现。通过这些方法，ClinicBench数据集为推动LLMs在临床应用中的进一步发展提供了有力的工具和资源。

背景与挑战

背景概述

随着大型语言模型（LLMs）在辅助临床决策中的应用日益受到关注，ClinicBench数据集应运而生。该数据集由Fenglin Liu等研究人员于2024年创建，旨在全面评估LLMs在临床环境中的表现。ClinicBench不仅整合了现有的11个涵盖临床语言生成、理解和推理任务的数据集，还构建了6个新的复杂临床任务数据集，如开放式决策制定、长文档处理和新药分析。这一数据集的构建旨在填补现有研究在评估LLMs临床应用中的空白，推动LLMs在医疗领域的实际应用。

当前挑战

ClinicBench数据集面临的挑战主要集中在以下几个方面：首先，现有研究主要集中在封闭式问答任务的评估，忽略了LLMs在其他临床场景中的表现，如临床语言理解和生成。其次，当前任务主要集中在非临床机器学习任务，无法充分评估模型解决复杂临床问题的能力。此外，大多数研究在定量比较中仅使用有限的基线模型，尤其是ChatGPT。最后，LLMs在处理开放式决策制定、长文档处理和新药理解等复杂临床任务时，性能显著下降，这表明现有模型在这些领域的应用仍存在显著局限。

常用场景

经典使用场景

ClinicBench数据集的经典使用场景在于评估大型语言模型（LLMs）在临床决策中的表现。通过涵盖多种临床语言生成、理解和推理任务，该数据集为研究人员提供了一个全面的基准，以测试LLMs在处理开放式决策、长文档处理和新兴药物分析等复杂临床任务中的能力。这种全面性使得ClinicBench成为评估和改进LLMs在医疗领域应用的重要工具。

解决学术问题

ClinicBench数据集解决了当前学术研究中对LLMs在临床应用评估的局限性问题。传统研究主要集中在封闭式问答任务上，而ClinicBench引入了更多开放式和复杂的临床任务，如开放式决策制定和长文档处理，填补了这一领域的空白。这不仅提升了对LLMs在临床环境中实际应用能力的理解，也为未来模型优化提供了方向。

实际应用

在实际应用中，ClinicBench数据集为医疗领域的决策支持系统提供了宝贵的资源。通过评估LLMs在处理复杂临床任务中的表现，该数据集帮助开发更智能、更可靠的医疗辅助工具。这些工具可以用于自动生成临床报告、辅助诊断决策以及处理大量医疗文档，从而提高医疗服务的效率和准确性。

数据集最近研究