five

PromptCBLUE|医学领域数据集|语言模型评估数据集

收藏
arXiv2023-10-22 更新2024-08-06 收录
医学领域
语言模型评估
下载链接:
http://arxiv.org/abs/2310.14151v1
下载链接
链接失效反馈
资源简介:
一个大规模的中文医学语言理解评估基准,适用于评估中文大型语言模型在多种医学任务上的多任务能力,包括医学实体识别、医学文本分类、医学自然语言推理、医学对话理解和医学内容/对话生成。

A large-scale Chinese medical language understanding evaluation benchmark designed to assess the multi-task capabilities of Chinese large language models across various medical tasks, including medical entity recognition, medical text classification, medical natural language inference, medical dialogue understanding, and medical content/dialogue generation.
创建时间:
2023-10-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
PromptCBLUE数据集的构建基于CBLUE基准,旨在为中文医疗领域的大型语言模型(LLM)提供一个大规模的多任务提示调整基准。该数据集包括一系列生物医学任务,如医疗实体识别、医疗文本分类、医疗自然语言推理、医疗对话理解和医疗内容/对话生成。为了适应LLM的评估,所有传统的医疗自然语言处理任务都被重新定义为统一的提示-响应生成形式。数据集的构建过程涉及专家对提示模板的验证,并使用ChatGPT对模板进行改写。数据集的样本格式包括输入文本、目标响应、可能的答案选项、样本ID、任务类型和任务数据集名称。
特点
PromptCBLUE数据集的特点包括:(1)多任务能力评估:数据集涵盖了广泛的生物医学任务,为评估LLM在医疗领域的多任务处理能力提供了一个理想平台。(2)提示调整格式:所有任务都被转换为指令调整格式,方便LLM的评估。(3)数据质量保证:通过专家验证和随机抽样检查,确保了数据集的质量。(4)在线评估平台:数据集托管在一个在线平台上,方便进行测试评估和排行榜展示。
使用方法
PromptCBLUE数据集的使用方法包括:(1)数据集下载:用户可以从数据集发布的网站下载所需的训练、开发和测试数据集。(2)模型训练和评估:用户可以使用数据集进行模型训练和评估,以测试LLM在医疗领域的多任务处理能力。(3)在线评估平台:用户可以在在线平台上提交模型进行评估,并在排行榜上查看模型性能。
背景与挑战
背景概述
PromptCBLUE 数据集是针对医学领域的大型中文提示调整基准,它基于现有的中文生物医学语言理解评估 (CBLUE) 基准,旨在解决当前医学领域大型语言模型 (LLM) 评估的不足。PromptCBLUE 由华东师范大学、杭州核舟唐科技有限公司、哈尔滨工业大学深圳研究生院等机构的研究人员共同创建,旨在为中文 LLM 在医学领域的多任务能力提供一个合适的测试平台和在线评估平台。该数据集涵盖了广泛的生物医学任务,包括医疗实体识别、医疗文本分类、医疗自然语言推理、医疗对话理解和医疗内容/对话生成。研究人员通过实验和报告了目前 9 个经过不同微调技术的中文 LLM 的结果,以建立这些任务的评估标准。PromptCBLUE 数据集的发布为医学 LLM 研究提供了一个重要的测试床和在线平台,有助于推动医学领域 LLM 的发展。
当前挑战
PromptCBLUE 数据集面临的挑战包括:1) 解决领域问题:PromptCBLUE 旨在解决医学领域 LLM 评估的不足,包括当前基准的局限性(例如仅限于英语、侧重于知识探针而忽视实际应用、公开语料库可能泄露给 LLM 等)。2) 构建过程中的挑战:PromptCBLUE 的构建过程中,研究人员需要将传统的医学自然语言处理任务转换为统一的提示-响应生成形式,这需要大量的手动工作和专家验证。此外,PromptCBLUE 还需要收集大量的提示模板,并进行质量检查,以确保数据的质量。
常用场景
经典使用场景
PromptCBLUE数据集是一个针对中文医疗领域的大型提示调整基准测试数据集,用于评估大型语言模型(LLM)在广泛生物医学任务上的多任务能力。该数据集涵盖了包括医疗实体识别、医疗文本分类、医疗自然语言推理、医疗对话理解和医疗内容/对话生成在内的多种任务。PromptCBLUE通过将传统的医疗自然语言处理任务转化为统一的提示-响应生成形式,为中文LLM提供了良好的测试平台,以检验其在医疗领域的应用潜力。
解决学术问题
PromptCBLUE数据集解决了现有生物医学语言理解基准的几个关键问题。首先,它扩展了语言范围,从英语扩展到中文,使得在中文医疗领域复制英语的成功变得更加容易。其次,它不仅关注LLM的知识探测,还评估了LLM如何将这些知识应用于广泛的生物医学任务。最后,它确保了测试集的真实性,防止了数据泄露到LLM的预训练过程中,从而有效地评估LLM的泛化能力和指令跟随能力。
衍生相关工作
PromptCBLUE数据集的提出为中文生物医学自然语言处理领域的研究提供了新的方向。它不仅为中文LLM的发展提供了一个平台,还为研究LLM在医疗领域的多任务能力提供了基准。此外,PromptCBLUE的数据收集和评估方法也为其他领域的LLM研究提供了参考。例如,可以借鉴PromptCBLUE的方法来构建其他领域的多任务基准测试数据集,以评估LLM在不同场景下的应用能力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

专精特新“小巨人”合肥企业名单(第一批~第四批)

根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。

合肥数据要素流通平台 收录