CUPCase

Name: CUPCase
Creator: 本古里安大学
Published: 2025-03-08 21:21:44
License: 暂无描述

arXiv2025-03-08 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.06204v1

下载链接

链接失效反馈

官方服务：

资源简介：

CUPCase数据集是基于BMC医学案例报告期刊的3562个真实世界案例报告构建的，旨在评估大型语言模型在医学知识提取、诊断、总结等方面的能力。该数据集包含以开放文本格式呈现的诊断和多项选择题形式的案例，涵盖了从oncology（肿瘤学）到obstetrics and gynecology（妇产科）等多种医学学科。数据集的构建过程包括从案例报告中提取案例介绍，移除关于最终诊断的明确提及，并将诊断转化为向量形式以便于模型学习。

The CUPCase dataset is constructed based on 3,562 real-world case reports from the BMC Medical Case Reports journal, and is designed to evaluate the capabilities of large language models (LLMs) in tasks such as medical knowledge extraction, diagnosis, and text summarization. The dataset includes cases presented in both open-text format and multiple-choice question (MCQ) format, covering a wide range of medical disciplines spanning from oncology to obstetrics and gynecology. The dataset construction pipeline involves extracting case introductions from the original case reports, removing explicit references to the final diagnosis, and converting diagnostic information into vector embeddings to facilitate model learning.

提供机构：

本古里安大学

创建时间：

2025-03-08

搜集汇总

数据集介绍

构建方式

CUPCase数据集的构建方式独特，它基于3,562个真实的病例报告，这些报告来自BMC期刊，涵盖了2012年至2020年的数据。在数据预处理阶段，研究人员使用Python脚本提取了每个报告的“病例介绍”部分，包括自由文本和图像。为了评估目的，他们利用GPT-4o-mini模型通过API去除任何关于最终诊断和任何后续治疗的信息。为了确保诊断的准确性，研究人员进行了多次迭代和验证，包括手动检查和利用BERTScore F1指标评估诊断与模型预测之间的语义相似度。最终，数据集被分为两个版本：一个用于问答，包含正确的最终诊断和三个干扰项；另一个包含自由文本形式的最终诊断。

特点

CUPCase数据集的特点在于其真实性和多样性。它不仅包括罕见疾病，还包括常见疾病的不常见表现和意外的治疗反应。数据集覆盖了广泛的医学领域，如肿瘤学、传染病和神经学等。此外，CUPCase数据集的构建还考虑了开放性和可扩展性，研究人员提供了开源代码，使得其他人可以轻松地将更多病例报告纳入数据集。这种设计使得数据集能够适应不断变化的临床实践和新兴的研究方向。

使用方法

CUPCase数据集的使用方法多样。它被设计用于评估大型语言模型（LLMs）在医学领域的诊断能力。研究人员使用两种任务来评估模型：多项选择题和自由文本生成。在多项选择题中，模型需要在四个选项中选择正确的诊断，其中三个是干扰项。在自由文本生成中，模型需要根据病例介绍生成最可能的诊断。评估指标包括准确性和BERTScore F1，分别用于多项选择题和自由文本生成。此外，数据集的开放性和可扩展性使其成为研究者和开发者测试和改进LLMs的理想平台。

背景与挑战

背景概述

CUPCase数据集的创建旨在应对现有医学领域大型语言模型（LLMs）评估数据集的局限性。当前数据集主要来源于医学学生的考试题目或医学文献中的案例描述，缺乏真实世界患者案例的复杂性，例如罕见疾病、常见疾病的不寻常表现和意外的治疗反应。CUPCase数据集基于BMC上发表的3,562个真实世界案例报告构建，包括开放式的文本格式的诊断和包含干扰项的多项选择题。该数据集的创建由Ben-Gurion大学的研究人员Oriel Perets、Ofir Ben Shoham、Nir Grinberg和Nadav Rappoport领导，旨在评估最先进的LLMs在识别和正确诊断患者案例方面的能力，并测试模型在只有部分案例信息可用时的性能。CUPCase的创建对于相关领域具有重要影响力，因为它为LLMs在临床决策支持方面的评估提供了开放和可重复的方法。

当前挑战

CUPCase数据集面临的挑战包括：1) 解决领域问题的挑战：如何准确地评估LLMs在处理罕见疾病、常见疾病的不寻常表现和意外的治疗反应等复杂临床案例时的诊断能力；2) 构建过程中的挑战：如何确保数据集的多样性和代表性，以及如何有效地进行数据清洗和预处理，以便LLMs能够从中学习到准确的知识。此外，CUPCase数据集的构建还面临着如何平衡数据集的规模和质量的挑战，以及如何确保数据集的安全性和隐私性。

常用场景

经典使用场景

CUPCase 数据集被广泛应用于评估和训练大型语言模型（LLMs）在临床决策支持方面的能力。该数据集包含来自 BMC Journal of Medical Case Reports 的 3,562 个真实世界病例报告，涵盖了广泛的临床条件，包括罕见疾病、常见疾病的不寻常表现和意外的治疗反应。这些病例报告以开放式的文本格式和多项选择题的形式提供诊断，为 LLMs 提供了丰富的训练和评估材料。

解决学术问题

CUPCase 数据集解决了当前医学基准数据集主要基于医学学生考试题目或医学文献中描述的病例，缺乏真实世界患者病例的复杂性这一学术问题。CUPCase 包含真实世界的病例报告，提供了对罕见疾病、常见疾病的不寻常表现和意外的治疗反应的深入了解，从而更全面地评估 LLMs 在临床决策支持方面的能力。CUPCase 的引入为医学领域的研究人员提供了更接近真实临床环境的数据集，有助于推动 LLMs 在医疗知识提取、诊断、总结等方面的研究进展。

衍生相关工作

CUPCase 数据集的引入激发了大量相关研究，例如 RareBench 和 RareDis 等，这些研究专注于评估 LLMs 在罕见疾病诊断方面的能力。CUPCase 数据集的发布为医学领域的研究人员提供了一个新的评估和训练 LLMs 的基准数据集，推动了 LLMs 在医疗领域的应用和发展。CUPCase 数据集的引入还促进了多模态语言模型的评估，例如将文本和图像数据相结合来评估 LLMs 的性能。此外，CUPCase 数据集的发布还推动了领域特定模型的开发，例如针对特定临床领域的 LLMs，以提高 LLMs 在诊断复杂病例方面的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集