five

CMB

收藏
arXiv2024-04-04 更新2024-06-21 收录
下载链接:
https://github.com/FreedomIntelligence/CMB
下载链接
链接失效反馈
资源简介:
CMB是一个全面的中文医学基准数据集,由香港中文大学深圳的研究团队开发。该数据集包含280,839个多选题,涵盖6大类别和28个子类别,旨在评估大型语言模型在医学领域的应用。CMB-Exam部分包含资格考试的多选题,而CMB-Clin则包含复杂的临床诊断问题,源自真实的病例研究。数据集的创建过程包括从公开可用的考试题目和课程练习中收集数据,并由专家提供明确的解决方案。CMB数据集的应用领域广泛,旨在解决医学领域中大型语言模型的评估问题,特别是在中国本土文化和语言框架下的应用。

CMB is a comprehensive Chinese medical benchmark dataset developed by a research team at The Chinese University of Hong Kong, Shenzhen. It contains 280,839 multiple-choice questions spanning 6 major categories and 28 subcategories, designed to evaluate the performance of large language models (LLMs) in the medical field. The CMB-Exam subset consists of multiple-choice questions from medical qualifying examinations, while CMB-Clin includes complex clinical diagnostic questions derived from real-world case studies. The dataset was constructed by collecting data from publicly available exam questions and course exercises, with explicit solutions provided by medical experts. With broad application prospects, the CMB dataset aims to address the evaluation challenges of large language models in the medical domain, particularly for applications within the framework of Chinese local culture and language.
提供机构:
香港中文大学深圳
创建时间:
2023-08-17
搜集汇总
数据集介绍
main_image_url
构建方式
CMB数据集的构建方法分为两部分:CMB-Exam和CMB-Clin。CMB-Exam部分从公开可用的考试题目和课程练习中获取数据,这些材料都由专家提供了明确的解决方案。数据预处理过程包括去重、清洗和字符识别错误的手动校准。CMB-Clin部分则收集了来自各种官方医学教科书的病例,这些病例包含问题和答案,涵盖了广泛的疾病类型。通过质量筛选,最终获得了74个高质量的复杂病例,用于构建CMB-Clin子集。
使用方法
CMB数据集的使用方法分为两部分:CMB-Exam和CMB-Clin。CMB-Exam部分可以用于评估模型对医学知识的掌握程度,而CMB-Clin部分可以用于评估模型在实际诊断和治疗情境中的应用能力。使用CMB数据集时,可以采用直接回答和思维链(CoT)两种方式。直接回答方式适用于不需要推理的问题,而CoT方式适用于需要推理的问题。
背景与挑战
背景概述
在医学领域,大型语言模型(LLMs)为医疗诊断和治疗带来了新的可能性。然而,由于不同地区医疗环境的独特性,如中国传统医学在中国的普遍性和重要性,简单的英文化学评价无法满足本地化需求。为了解决这一问题,王希东等人于2024年4月提出了一个本地化的医学基准CMB,即一个完全基于中文语言和文化框架的综合医学基准。CMB不仅涵盖了中医,还包括了其他医学领域,旨在为评估LLMs在医学领域的应用提供客观、全面的标准。CMB数据集由两部分组成:CMB-Exam和CMB-Clin。CMB-Exam包含了来自资格考试的多个选择题,而CMB-Clin则包含了来自真实病例研究的复杂临床诊断问题。该数据集跨越6个主要类别和28个子类别,总计280,839个选择题。
当前挑战
CMB数据集的构建和应用面临着一些挑战。首先,医学评价的专业性要求高,如何在保证评价标准客观、公正的同时,又能反映不同地区医疗环境的独特性,是一个难题。其次,构建CMB数据集需要收集大量的医学知识和病例数据,并进行严格的清洗和标注,以确保数据的质量和可靠性。最后,CMB数据集的构建和应用需要跨文化沟通和理解,尤其是在将西方医学框架应用于本地环境时。
常用场景
经典使用场景
CMB数据集,全称为Comprehensive Medical Benchmark in Chinese,是一个专门针对中文医疗领域的大型语言模型(LLMs)的评估基准。该数据集的建立旨在为LLMs在医疗领域的应用提供一个标准化、全面且具有文化背景的评估框架。CMB数据集包含两个主要部分:CMB-Exam和CMB-Clin。CMB-Exam部分包含了来自资格考试的多项选择题,涵盖了临床医学、护理、医技和药学等多个专业领域,旨在评估模型对医疗知识的掌握程度。CMB-Clin部分则包含了来自真实临床案例的复杂临床诊断问题,旨在评估模型在实际诊断和治疗情境下的知识应用能力和问题解决能力。
解决学术问题
CMB数据集解决了现有医疗评估基准在中文医疗领域中的不足。现有的医疗评估基准大多基于英文,将其翻译成中文可能导致语境不匹配,无法准确反映中文医疗环境的特点。CMB数据集完全基于中文语言和文化框架,充分考虑了中医的独特性和重要性,为LLMs在中文医疗领域的应用提供了一个更加贴近实际情况的评估基准。此外,CMB数据集还解决了现有医疗评估基准缺乏真实案例的问题,CMB-Clin部分包含了来自真实临床案例的问题,可以更准确地评估模型在实际医疗情境下的表现。
实际应用
CMB数据集的实际应用场景包括:1. 医疗教育:CMB数据集可以作为医学教育和培训的工具,帮助学生和医生评估和提高自己的医疗知识和技能。2. 医疗咨询:CMB数据集可以用于开发智能医疗咨询系统,为患者提供准确的医疗信息和建议。3. 医疗研究:CMB数据集可以作为医疗研究的工具,帮助研究人员评估LLMs在医疗领域的应用潜力。
数据集最近研究
最新研究方向
CMB数据集的最新研究方向集中在评估大型语言模型(LLMs)在医学领域的知识掌握和实际应用能力。该数据集包含两个部分:CMB-Exam,包含资格考题;CMB-Clin,包含临床诊断问题。通过CMB数据集,研究者评估了多个LLMs,包括ChatGPT、GPT-4、专注于中文的LLMs以及专注于医疗领域的LLMs。研究发现,GPT-4和近期开源的LLMs如Qwen-72B-Chat和Yi-34B-Chat的准确率超过60%,达到了获得执照的门槛。然而,不同专业水平和知识领域的准确率存在显著差异,特别是在中医和西医之间。此外,CoT和few-shot提示在不同模型中的效果各异,尤其是在知识密集型任务中存在潜在风险。CMB数据集的引入为评估LLMs在医学领域的应用提供了更本土化和全面的标准,有助于推动LLMs在医疗领域的广泛应用和提升。
相关研究论文
  • 1
    CMB: A Comprehensive Medical Benchmark in Chinese香港中文大学深圳 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作