PromptCBLUE
收藏arXiv2025-09-30 收录
下载链接:
https://tianchi.aliyun.com/competition/entrance/532084/information
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含16个不同医疗任务的中国多任务医疗数据集,为了与大型语言模型(LLMs)兼容,数据集被转换成了纯文本格式。在数据处理阶段,已经去除了重复样本,同时开发集也被用作测试集。该数据集的任务包括医疗命名实体识别、诊断报告生成以及其他与医疗相关的一系列任务。
This dataset is a Chinese multi-task medical dataset containing 16 distinct medical tasks. To ensure compatibility with Large Language Models (LLMs), the dataset has been converted into plain text format. During the data processing stage, duplicate samples have been removed, and the development set has also been used as the test set. The tasks included in this dataset cover medical named entity recognition, diagnostic report generation, and a series of other healthcare-related tasks.
提供机构:
Tianchi Competition Platform
搜集汇总
数据集介绍

构建方式
PromptCBLUE基于中文生物医学语言理解评测基准CBLUE构建,通过大规模提示模板池将所有传统医疗自然语言处理任务转化为统一的指令遵循式生成任务。模板的收集结合了人工撰写与ChatGPT扩写,并经过医学专家与资深NLP研究者的双重审核以确保有效性。每个任务的数据样本被填充至模板中,形成包含输入、目标输出、候选答案等字段的结构化样本。训练集、开发集与测试集分别被限制在3000至5000条与600至800条,通过均匀采样从模板填充后的样本池中随机选取,以适配大语言模型的高计算资源需求。
使用方法
使用者可通过天池竞赛平台下载数据集,并参考开源代码库进行模型评估。数据集支持少样本上下文学习、少样本微调与全量微调三种设置,其中微调可采用全模型微调或参数高效微调方法(如LoRA、Adapter等)。模型需根据提示生成自然语言序列,并通过正则表达式或后处理脚本将输出转化为结构化结果,以计算严格微平均F1、宏平均F1、ROUGE-L等指标。数据集的样本格式统一为JSON结构,便于批处理与集成到现有的大语言模型训练流程中。
背景与挑战
背景概述
PromptCBLUE数据集由华东师范大学、哈尔滨工业大学(深圳)等机构的研究人员于2023年创建,旨在构建一个面向中文医疗领域的大规模提示微调基准。随着大型语言模型(LLM)在生物医学领域的广泛应用,现有基准多局限于英文、侧重知识探测而忽视多任务能力评估,或存在数据泄漏问题。PromptCBLUE基于中文生物医学语言理解评估基准(CBLUE)重构,涵盖医学实体识别、文本分类、自然语言推理、对话理解与生成等五大类任务,为评估中文医疗LLM的多任务泛化能力提供了标准化平台。该数据集通过专家验证的提示模板和在线评测平台,推动了医疗LLM在中文场景下的研究与发展。
当前挑战
PromptCBLUE面临的核心挑战包括:首先,医学文本的复杂性与专业性要求模型精准理解实体边界、语义关系及隐含知识,如信息抽取任务中实体边界识别错误率达11.4%,对话生成任务中长文本理解不足导致关键信息遗漏。其次,构建过程中需将传统结构化任务转化为统一的指令遵循格式,涉及提示模板的多样性设计与质量审核,通过专家小组与ChatGPT协作生成模板,但平均0.9%的误标率仍影响评估精度。此外,模型在少样本微调与大规模训练下的表现差异显著,参数高效微调方法(如LoRA、P-tuning)在不同任务上性能各异,且开源模型虽经医学领域预训练,但通用语言能力与领域知识的平衡仍是优化难点。
常用场景
经典使用场景
PromptCBLUE作为一个专为中文医学领域设计的大规模提示调优基准数据集,其最经典的使用场景在于评估和提升中文大语言模型在生物医学自然语言处理任务上的多任务能力。该数据集涵盖了医学实体识别、文本分类、自然语言推理、对话理解以及内容生成等多样化的任务类型,为研究者提供了一个统一的测试平台,用以系统性地衡量模型在指令遵循、知识应用与泛化能力上的表现。通过将传统CBLUE基准转化为提示-响应的生成格式,PromptCBLUE不仅保留了原有任务的挑战性,还适应了当前大语言模型的发展趋势,成为推动中文医学语言模型进步的关键工具。
解决学术问题
PromptCBLUE主要解决了当前医学语言理解基准中存在的三大学术研究问题:一是现有基准多以英文为主,难以复现其在其他语言中的成功;二是许多基准侧重知识探测,而忽略了评估模型在多种生物医学任务上的应用能力;三是部分公开语料已被预训练阶段的大语言模型学习,导致评估失真。通过构建大规模的中文提示调优基准,PromptCBLUE有效弥补了中文医学NLP领域的空白,能够真实反映模型对指令的理解与执行水平,并避免了数据泄露带来的偏差。该数据集的提出为中文医学大语言模型的开发提供了可靠的评估依据,促进了跨任务泛化能力研究的深入发展。
实际应用
在实际应用中,PromptCBLUE所涵盖的任务类型直接服务于医疗领域的多个关键场景。例如,医学实体识别和关系抽取可用于电子病历的结构化处理,辅助医生快速提取关键信息;医学文本分类和自然语言推理则能优化在线医疗查询的意图识别与语义匹配,提升智能导诊系统的准确性。此外,医患对话的摘要生成与自动回复功能,能够减轻医生文书工作负担,提高诊疗效率。这些应用场景不仅有助于提升医疗服务的智能化水平,还能在慢性病管理、远程问诊和保险理赔等环节发挥重要作用,推动智慧医疗的落地与普及。
数据集最近研究
最新研究方向
在当前大语言模型迅猛发展的背景下,中文医疗领域面临评估基准匮乏的挑战。PromptCBLUE数据集应运而生,它将原有的CBLUE基准重构为大规模提示调优基准,涵盖医学实体识别、文本分类、自然语言推理、对话理解及内容生成等多元任务。该数据集聚焦于弥补现有英文基准的局限,避免模型预训练数据泄露,并系统评估中文大语言模型在医疗领域的多任务能力。通过与ChatGPT、GPT-4及多个开源模型在少样本学习和微调场景下的对比实验,研究揭示了提示工程和参数高效微调对提升医疗信息抽取性能的关键作用,为中文医疗大语言模型的标准化评估与应用落地提供了重要参照。
相关研究论文
- 1PromptCBLUE: A Chinese Prompt Tuning Benchmark for the Medical Domain · 2023年
以上内容由遇见数据集搜集并总结生成



