ExplainCPE
收藏arXiv2023-10-26 更新2024-06-21 收录
下载链接:
https://github.com/HITsz-TMG/ExplainCPE
下载链接
链接失效反馈官方服务:
资源简介:
ExplainCPE是一个针对中国药师考试的自由文本解释基准数据集,包含超过7000个问题,专门设计用于评估模型生成的解释。该数据集由哈尔滨工业大学(深圳)创建,旨在解决大型语言模型在医疗领域的解释性问题。数据集内容涵盖广泛的医疗知识,通过从官方考试解决方案中提取的解释来确保数据的准确性和完整性。ExplainCPE的应用领域主要集中在提高AI在医疗诊断中的解释能力,减少误诊,并推动智能医疗的发展。
ExplainCPE is a free-text explanatory benchmark dataset tailored for the Chinese Pharmacist Licensure Examination. Comprising over 7,000 questions, it is specifically designed to evaluate model-generated explanations. Developed by Harbin Institute of Technology (Shenzhen), this dataset aims to address the explanatory challenges faced by large language models in the medical domain. Covering a broad spectrum of medical knowledge, it ensures data accuracy and integrity through explanations extracted from official exam solutions. The primary application scenarios of ExplainCPE focus on enhancing the explanatory capability of AI in medical diagnosis, reducing misdiagnosis, and advancing the development of intelligent healthcare.
提供机构:
哈尔滨工业大学(深圳)
创建时间:
2023-05-22
搜集汇总
数据集介绍

构建方式
在医学自然语言处理领域,构建高质量的专业数据集对于评估大语言模型的解释能力至关重要。ExplainCPE数据集的构建依托于中国国家执业药师资格考试的真实题目,通过系统性地收集2020年至2021年的官方试题及其标准答案解析作为核心测试集。此外,研究团队从网络资源和习题册中广泛采集了超过7000道题目,并邀请三位经过标准化住院医师培训的医学博士对320个样本进行人工审核,确保了标签与解释的完整性与准确性,最终达到99.4%的标注正确率。数据集经过去重和清洗,按照预定比例随机划分为训练集、开发集和测试集,并基于编辑距离筛选语义重复问题,从而形成了结构严谨、质量可靠的医学解释评估基准。
特点
ExplainCPE数据集在医学解释评估领域展现出鲜明的专业特色。其核心在于覆盖了药学领域的深度知识,题目类型涵盖逻辑推理、药物知识、情景分析、数学计算、疾病知识及常识等多个类别,并进一步细分为抗炎、感染、肿瘤等14个医学子领域,体现了内容的多样性与层次性。数据集中每道题目均配有五选一选项及详细的自由文本解释,解释平均长度超过120词,为模型生成连贯、专业的医学推理提供了高标准参考。此外,数据集专门设计了正向与负向问题,以考察模型对文本的深层理解与否定性推理能力,从而全面评估大语言模型在专业医学语境下的解释生成质量与可靠性。
使用方法
ExplainCPE数据集主要用于评估大语言模型在医学问答中的解释生成能力。研究人员可通过设计不同的提示模板,在零样本、少样本等设置下测试模型对题目的答案预测与解释生成效果。典型使用流程包括:将问题与选项输入模型,要求其同时输出答案选项及相应的自然语言解释;随后,利用准确率与Rouge等自动指标评估答案正确性与解释相似度,并结合人工评估从语句规范性、支持性、正确性、有效性及新颖性五个维度对解释质量进行定性分析。该数据集还可用于探究不同模型在上下文学习中的偏好差异,以及模型在逻辑推理、数学计算等特定类别问题上的表现,从而揭示大语言模型在医学解释任务中的优势与局限,推动模型可解释性研究的深入发展。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的广泛应用,其可解释性成为研究焦点,尤其在医疗等高风险领域,模型决策的透明性至关重要。ExplainCPE数据集由哈尔滨工业大学(深圳)的研究团队于2023年创建,旨在填补中文医学解释性评估资源的空白。该数据集基于中国执业药师考试,包含超过7000道多项选择题及其专业解释,核心研究问题聚焦于评估大语言模型在生成医学自由文本解释方面的能力。通过引入这一基准,研究团队推动了模型可解释性在专业领域的发展,为提升人工智能在医疗决策中的可信度提供了重要工具。
当前挑战
ExplainCPE数据集致力于解决医学领域大语言模型解释性评估的挑战,具体包括模型在理解复杂医学文本、执行计算推理以及生成准确解释方面的局限性。构建过程中,研究团队面临数据收集与标注的专业性难题,例如需从官方考试和练习资料中筛选高质量问题,并确保解释的准确性和完整性。此外,数据集需涵盖多样化的医学子领域和问题类型,如逻辑推理、药物知识和场景分析,以全面评估模型能力。这些挑战凸显了在专业领域构建标准化解释性基准的复杂性与必要性。
常用场景
经典使用场景
在医疗人工智能领域,ExplainCPE数据集被广泛应用于评估大型语言模型在专业医学知识解释生成方面的能力。该数据集基于中国执业药师考试的题目构建,涵盖超过七千个医学多选问题及其标准解释,为模型提供了丰富的领域特定语境。研究者通常利用该数据集测试模型在回答复杂医学问题时的准确性,并深入分析其生成解释的逻辑性、专业性和一致性,从而揭示模型在医学文本理解和推理方面的潜在局限。
解决学术问题
ExplainCPE数据集有效解决了医学自然语言处理中解释性评估资源匮乏的学术难题。传统评估基准多集中于英文通用领域,缺乏针对中文医学专业场景的高质量解释数据,导致模型解释能力的评估难以深入。该数据集通过提供标准化的医学问题与解释对,使得研究者能够系统性地衡量模型生成解释的忠实度、正确性和逻辑连贯性,推动了可解释人工智能在医疗高风险领域的发展,为提升模型透明度和可信度奠定了数据基础。
衍生相关工作
ExplainCPE数据集的推出激发了多项相关研究,特别是在中文医学大型语言模型的解释能力优化方面。例如,基于该数据集的评估结果,研究者开发了针对医学场景的提示工程策略,探索了少样本学习对模型解释生成的影响。同时,该数据集也为后续医学解释生成模型的微调提供了基准,如结合ChatGLM等开源模型进行领域适配,推动了像Med-ChatGLM这类专业医学对话模型的演进,进一步拓展了可解释AI在临床决策支持系统中的实际应用。
以上内容由遇见数据集搜集并总结生成



