PediaBench
收藏PediaBench: 一个用于评估大型语言模型的综合性中文儿科数据集
1. 简介
PediaBench 是首个用于评估大型语言模型(LLMs)在医疗领域,特别是儿科问答(QA)中表现的综合性中文儿科数据集。该数据集包含4,565个客观问题和1,632个主观问题,涵盖了12种典型的儿科疾病组,涉及五种不同类型的问题。
2. 数据集
2.1 问题类型
PediaBench 包含以下五种典型类型的医疗问题,用于评估 LLM 作为儿科医生 AI 助手的能力:
- 判断题(True or False, ToF):要求 LLM 判断陈述是否为事实。
- 选择题(Multiple Choice, MC):要求从多个选项中选择一个或多个正确答案。
- 配对题(Pairing, PA):要求将句子与候选列表中的缺失词完全匹配。
- 简答题(Essay/Short Answer, ES):要求详细阐述特定概念。
- 案例分析题(Case Analysis, CA):要求 LLM 根据病例描述进行诊断并提供治疗措施。
2.2 数据集统计
PediaBench 数据集包含5,749个问题,具体分布如下:
- 判断题:258个
- 选择题:3,576个
- 配对题:283个
- 简答题:1,565个
- 案例分析题:67个
除案例分析题外,其余5,682个问题根据世界卫生组织发布的国际疾病分类(ICD-11)标准,分为12个不同的疾病组。
2.3 评估标准
为了准确评估每个 LLM 在儿科问答中的表现,PediaBench 使用结合难度级别和自动评分的评分标准:
- 判断题和选择题:使用准确率作为基本性能指标,并设计基于难度系数的评分方案。
- 配对题:完全正确得3分,部分正确得1分,完全错误不得分。
- 简答题和案例分析题:开放性问题,使用基于 LLM 的自动评分方案,其中案例分析题的权重为简答题的2倍。
3. 实验
3.1 主要结果
通过实验验证了 PediaBench 的有效性,实验中使用了20个通用和医疗领域的 LLM,包括开源和商业模型。结果显示,大多数模型在某些疾病组中表现较好,但在所有疾病组中均无法在主观问题上表现出色。
3.2 不同疾病组的结果
为了量化评分,计算了每个疾病组中 LLM 的得分比例。大多数模型在 HCDA 和 DImS 两个疾病组中得分最高。
4. 使用指南
- 数据集位于
/data目录中。获取模型响应后,请将模型对五种问题类型的答案编译成.xlsx文件,并使用评估代码获取结果。 - 提交的
.xlsx文件应参考samples.xlsx。 - 运行评估代码后,将获得包含不同问题类型在不同疾病组中的得分以及最终加权总分的
.xlsx文件。
5. 注意事项
5.1 局限性
尽管 PediaBench 数据集包含大量儿科问题,但仍无法涵盖现实世界中的许多儿科疾病及其治疗方法。未来计划扩展到更多医疗部门,并考虑更严格的评分策略。
5.2 数据收集的伦理
所有用于构建 PediaBench 数据集的数据来源均为公开且免费使用,且已进行适当的匿名化处理,不包含患者的敏感私人信息。
引用
如果该数据集对您的研究有帮助,请考虑引用:
@misc{zhang2024pediabenchcomprehensivechinesepediatric, title={PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models}, author={Qian Zhang and Panfeng Chen and Jiali Li and Linkun Feng and Shuyu Liu and Mei Chen and Hui Li and Yanhao Wang}, year={2024}, eprint={2412.06287}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.06287}, }

- 1PediaBench: A Comprehensive Chinese Pediatric Dataset for Benchmarking Large Language Models贵州大学计算机科学与技术学院公共大数据国家重点实验室,贵州大学,贵阳,中国 · 2024年



