PediaBench

Name: PediaBench
Creator: 贵州大学计算机科学与技术学院公共大数据国家重点实验室，贵州大学，贵阳，中国
Published: 2024-12-09 16:19:28
License: 暂无描述

arXiv2024-12-09 更新2024-12-11 收录

下载链接：

https://github.com/ACMISLab/PediaBench

下载链接

链接失效反馈

官方服务：

资源简介：

PediaBench是一个专门用于评估大型语言模型（LLMs）在儿科领域问答能力的中文数据集。该数据集由贵州大学和华东师范大学的研究团队创建，包含4,565个客观问题和1,632个主观问题，涵盖12种儿科疾病。数据集的来源包括中国国家医学执业考试、医学大学的期末考试以及儿科疾病诊断和治疗标准等。数据集的创建过程包括从多个可靠来源收集问题，并采用综合评分标准来评估LLMs在指令跟随、知识理解和临床案例分析等方面的能力。PediaBench旨在解决现有医学问答数据集在儿科领域覆盖不足的问题，为LLMs在儿科领域的应用提供全面的评估。

PediaBench is a Chinese-language dataset specifically designed to evaluate the question-answering capabilities of Large Language Models (LLMs) in the pediatric field. This dataset was developed by research teams from Guizhou University and East China Normal University, containing 4,565 objective questions and 1,632 subjective questions covering 12 pediatric diseases. The sources of the dataset include China’s National Medical Licensing Examination, final examinations from medical universities, as well as pediatric disease diagnosis and treatment guidelines. The dataset was constructed by collecting questions from multiple reliable sources, and a comprehensive scoring standard was adopted to evaluate the LLMs’ abilities in instruction following, knowledge comprehension, clinical case analysis, and other aspects. PediaBench aims to address the issue of insufficient pediatric coverage in existing medical question-answering datasets, providing a comprehensive evaluation benchmark for the application of LLMs in the pediatric domain.

提供机构：

贵州大学计算机科学与技术学院公共大数据国家重点实验室，贵州大学，贵阳，中国

创建时间：

2024-12-09

原始信息汇总

PediaBench: 一个用于评估大型语言模型的综合性中文儿科数据集

1. 简介

PediaBench 是首个用于评估大型语言模型（LLMs）在医疗领域，特别是儿科问答（QA）中表现的综合性中文儿科数据集。该数据集包含4,565个客观问题和1,632个主观问题，涵盖了12种典型的儿科疾病组，涉及五种不同类型的问题。

2. 数据集

2.1 问题类型

PediaBench 包含以下五种典型类型的医疗问题，用于评估 LLM 作为儿科医生 AI 助手的能力：

判断题（True or False, ToF）：要求 LLM 判断陈述是否为事实。
选择题（Multiple Choice, MC）：要求从多个选项中选择一个或多个正确答案。
配对题（Pairing, PA）：要求将句子与候选列表中的缺失词完全匹配。
简答题（Essay/Short Answer, ES）：要求详细阐述特定概念。
案例分析题（Case Analysis, CA）：要求 LLM 根据病例描述进行诊断并提供治疗措施。

2.2 数据集统计

PediaBench 数据集包含5,749个问题，具体分布如下：

判断题：258个
选择题：3,576个
配对题：283个
简答题：1,565个
案例分析题：67个

除案例分析题外，其余5,682个问题根据世界卫生组织发布的国际疾病分类（ICD-11）标准，分为12个不同的疾病组。

2.3 评估标准

为了准确评估每个 LLM 在儿科问答中的表现，PediaBench 使用结合难度级别和自动评分的评分标准：

判断题和选择题：使用准确率作为基本性能指标，并设计基于难度系数的评分方案。
配对题：完全正确得3分，部分正确得1分，完全错误不得分。
简答题和案例分析题：开放性问题，使用基于 LLM 的自动评分方案，其中案例分析题的权重为简答题的2倍。

3. 实验

3.1 主要结果

通过实验验证了 PediaBench 的有效性，实验中使用了20个通用和医疗领域的 LLM，包括开源和商业模型。结果显示，大多数模型在某些疾病组中表现较好，但在所有疾病组中均无法在主观问题上表现出色。

3.2 不同疾病组的结果

为了量化评分，计算了每个疾病组中 LLM 的得分比例。大多数模型在 HCDA 和 DImS 两个疾病组中得分最高。

4. 使用指南

数据集位于 /data 目录中。获取模型响应后，请将模型对五种问题类型的答案编译成 .xlsx 文件，并使用评估代码获取结果。
提交的 .xlsx 文件应参考 samples.xlsx。
运行评估代码后，将获得包含不同问题类型在不同疾病组中的得分以及最终加权总分的 .xlsx 文件。

5. 注意事项

5.1 局限性

尽管 PediaBench 数据集包含大量儿科问题，但仍无法涵盖现实世界中的许多儿科疾病及其治疗方法。未来计划扩展到更多医疗部门，并考虑更严格的评分策略。

5.2 数据收集的伦理

所有用于构建 PediaBench 数据集的数据来源均为公开且免费使用，且已进行适当的匿名化处理，不包含患者的敏感私人信息。

引用

如果该数据集对您的研究有帮助，请考虑引用：

@misc{zhang2024pediabenchcomprehensivechinesepediatric, title={PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models}, author={Qian Zhang and Panfeng Chen and Jiali Li and Linkun Feng and Shuyu Liu and Mei Chen and Hui Li and Yanhao Wang}, year={2024}, eprint={2412.06287}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.06287}, }

搜集汇总

数据集介绍

构建方式

PediaBench数据集的构建基于多种可靠来源，包括中国国家医学执业考试（CNMLE）、医学大学的期末考试、儿科疾病诊断与治疗标准以及临床指南。数据集包含了4,565道客观题和1,632道主观题，涵盖了12个儿科疾病组。为了确保数据集的多样性和全面性，问题类型包括判断题、选择题、配对题、简答题和案例分析题。此外，数据集采用了基于难度系数的评分标准，以更准确地评估大语言模型（LLM）在儿科问答任务中的表现。

特点

PediaBench数据集的显著特点在于其针对儿科领域的专业性和全面性。数据集不仅涵盖了广泛的儿科疾病，还通过多种题型（如判断题、选择题、配对题、简答题和案例分析题）全面评估LLM的问答能力。此外，数据集采用了基于难度系数的评分机制，能够更细致地评估LLM在不同难度问题上的表现，从而提供更全面的性能评估。

使用方法

PediaBench数据集主要用于评估大语言模型在儿科问答任务中的表现。使用者可以通过该数据集对LLM进行测试，评估其在不同题型和难度级别上的表现。具体使用方法包括：首先，加载数据集并选择合适的题型和难度级别；其次，将问题输入LLM，获取其生成的答案；最后，根据数据集提供的评分标准对LLM的答案进行评分，从而得出其在儿科问答任务中的整体表现。

背景与挑战

背景概述

随着大语言模型（LLMs）在医疗领域的应用日益广泛，评估其在儿科问答（QA）任务中的表现成为迫切需求。尽管已有多个医疗QA基准数据集，但它们大多涵盖通用医疗知识或特定于其他科室，而非专注于儿科领域。此外，现有数据集多以客观题为主，无法全面评估LLMs在生成医学文本方面的能力。为此，张倩等研究者于2024年构建了PediaBench，这是首个针对儿科领域的中文QA数据集，旨在全面评估LLMs在儿科QA任务中的表现。该数据集包含4,565道客观题和1,632道主观题，涵盖12个儿科疾病组，采用基于难度的评分标准，以评估LLMs在指令遵循、知识理解和临床案例分析等方面的能力。

当前挑战

PediaBench的构建面临多重挑战。首先，儿科领域的知识具有高度专业性，现有通用医疗数据集难以覆盖其深度和广度。其次，数据集的构建过程中，如何确保问题的多样性和难度分布的合理性是一个难点。此外，主观题的评估需要结合生成能力和医学准确性，这对自动评分系统提出了更高的要求。最后，如何在有限的资源下，确保数据集的覆盖范围和质量，也是一项重要挑战。

常用场景

经典使用场景

PediaBench 数据集的经典使用场景主要集中在评估大型语言模型（LLMs）在儿科问答任务中的表现。该数据集包含了 4,565 个客观问题和 1,632 个主观问题，涵盖了 12 种儿科疾病类别。通过这些问题，研究者可以全面评估 LLMs 在指令遵循、知识理解、临床案例分析等方面的能力。特别是，PediaBench 引入了多种题型，如判断题、选择题、配对题、简答题和案例分析题，这些题型能够有效测试 LLMs 在不同情境下的表现。

衍生相关工作

PediaBench 数据集的发布催生了一系列相关的研究工作。许多研究者基于该数据集对不同 LLMs 进行了评估，揭示了现有模型在儿科问答任务中的局限性。此外，PediaBench 还启发了对 LLMs 在医学领域应用的深入研究，特别是在知识注入、检索增强生成（RAG）和链式思维（CoT）提示等方面的改进。这些工作进一步推动了 LLMs 在医学领域的应用和发展。

数据集最近研究