five

FreedomIntelligence/CMB|医学教育数据集|医学评估数据集

收藏
hugging_face2024-04-05 更新2024-03-04 收录
医学教育
医学评估
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/CMB
下载链接
链接失效反馈
资源简介:
--- license: apache-2.0 task_categories: - question-answering - text-generation language: - zh tags: - medical - biology - chemistry size_categories: - 100K<n<1M configs: - config_name: CMB-Clin data_files: - split: test path: CMB-Clin/CMB-Clin-qa.json - config_name: CMB-Exam data_files: - split: test path: CMB-Exam/CMB-test/CMB-test-choice-question-merge.json - split: train path: CMB-Exam/CMB-train/CMB-train-merge.json - split: val path: CMB-Exam/CMB-val/CMB-val-merge.json --- # CMB: A Comprehensive Medical Benchmark in Chinese ![CMB](assets/title.png) <p align="center"> 🌐 <a href="https://github.com/FreedomIntelligence/CMB" target="_blank">Github</a> • 🌐 <a href="https://cmedbenchmark.llmzoo.com/#home" target="_blank">Website</a> • 🤗 <a href="https://huggingface.co/datasets/FreedomIntelligence/CMB" target="_blank">HuggingFace</a> ## 🌈 Update * **[2024.02.21]** The [answers](https://github.com/FreedomIntelligence/CMB/tree/main/data) to the CMB-Exam test has been updated and some errors caused by omissions in version management have been fixed. * **[2024.01.08]** In order to facilitate testing, we disclose the [answers](https://github.com/FreedomIntelligence/CMB/tree/main/data) to the CMB-Exam test * **[2023.09.22]** CMB is included in [OpenCompass](https://github.com/open-compass/opencompass). * **[2023.08.21]** [Paper](https://arxiv.org/abs/2308.08833) released. * **[2023.08.01]** 🎉🎉🎉 CMB is published!🎉🎉🎉 ## 🌐 Download Data - (Recommended) Download the [zip file](https://github.com/FreedomIntelligence/CMB/tree/main/data) and unzip: ```bash git clone "https://github.com/FreedomIntelligence/CMB.git" && cd CMB && unzip "./data/CMB.zip" -d "./data/" && rm "./data/CMB.zip" ``` - Or load our data as follows: ```python from datasets import load_dataset # CMB-Exam datasets (multiple-choice and multiple-answer questions) exam_datasets = load_dataset('FreedomIntelligence/CMB','exam') # CMB-Clin datasets clin_datasets = load_dataset('FreedomIntelligence/CMB','clin') ``` ## 🥇 Leaderboard Please Check [Leaderboard](https://cmedbenchmark.llmzoo.com/static/leaderboard.html). ## 🥸 Dataset intro ![CMB](assets/CMB-2.svg) ### Components - CMB-Exam: Comprehensive multi-level assessment for medical knowledge - Structure: 6 major categories and 28 subcategories, [View Catalog](catalog.md) - CMB-test: 400 questions per subcategories, 11200 questions in total - CMB-val: 280 questions with solutions and explanations; used as source for CoT and few-shot - CMB-train: 269359 questions for medical knowledge injection - CMB-Clin: 74 cases of complex medical inquires ### CMB-Exam Item ```json { "exam_type": "医师考试", "exam_class": "执业医师", "exam_subject": "口腔执业医师", "question": "患者,男性,11岁。近2个月来时有低热(37~38℃),全身无明显症状。查体无明显阳性体征。X线检查发现右肺中部有一直径约0.8cm类圆形病灶,边缘稍模糊,肺门淋巴结肿大。此男孩可能患", "answer": "D", "question_type": "单项选择题", "option": { "A": "小叶型肺炎", "B": "浸润性肺结核", "C": "继发性肺结核", "D": "原发性肺结核", "E": "粟粒型肺结核" } }, ``` - exam_type: major category - exam_class: sub-category - exam_subject: Specific departments or subdivisions of disciplines - question_type: *multiple-choice (单项选择题)* or *multiple-answer (多项选择题)* ### CMB-Clin Item ```json { "id": 0, "title": "案例分析-腹外疝", "description": "现病史\n(1)病史摘要\n 病人,男,49岁,3小时前解大便后出现右下腹疼痛,右下腹可触及一包块,既往体健。\n(2)主诉\n 右下腹痛并自扪及包块3小时。\n\n体格检查\n体温: T 37.8℃,P 101次/分,呼吸22次/分,BP 100/60mmHg,腹软,未见胃肠型蠕动波,肝脾肋下未及,于右侧腹股沟区可扪及一圆形肿块,约4cm×4cm大小,有压痛、界欠清,且肿块位于腹股沟韧带上内方。\n\n辅助检查\n(1)实验室检查\n 血常规:WBC 5.0×109/L,N 78%。\n 尿常规正常。\n(2)多普勒超声检查\n 沿腹股沟纵切可见一多层分布的混合回声区,宽窄不等,远端膨大,边界整齐,长约4~5cm。\n(3)腹部X线检查\n 可见阶梯状液气平。", "QA_pairs": [ { "question": "简述该病人的诊断及诊断依据。", "solution": "诊断:嵌顿性腹股沟斜疝合并肠梗阻。\n诊断依据:\n①右下腹痛并自扪及包块3小时;\n②有腹胀、呕吐,类似肠梗阻表现;腹部平片可见阶梯状液平,考虑肠梗阻可能;腹部B超考虑,\n腹部包块内可能为肠管可能;\n③有轻度毒性反应或是中毒反应,如 T 37.8℃,P 101次/分,白细胞中性分类78%;\n④腹股沟区包块位于腹股沟韧带上内方。" }, { "question": "简述该病人的鉴别诊断。", "solution": "(1)睾丸鞘膜积液:鞘膜积液所呈现的肿块完全局限在阴囊内,其上界可以清楚地摸到;用透光试验检查肿块,鞘膜积液多为透光(阳性),而疝块则不能透光。\n(2)交通性鞘膜积液:肿块的外形与睾丸鞘膜积液相似。于每日起床后或站立活动时肿块缓慢地出现并增大。平卧或睡觉后肿块逐渐缩小,挤压肿块,其体积也可逐渐缩小。透光试验为阳性。\n(3)精索鞘膜积液:肿块较小,在腹股沟管内,牵拉同侧睾丸可见肿块移动。\n(4)隐睾:腹股沟管内下降不全的睾丸可被误诊为斜疝或精索鞘膜积液。隐睾肿块较小,挤压时可出现特有的胀痛感觉。如患侧阴囊内睾丸缺如,则诊断更为明确。\n(5)急性肠梗阻:肠管被嵌顿的疝可伴发急性肠梗阻,但不应仅满足于肠梗阻的诊断而忽略疝的存在;尤其是病人比较肥胖或疝块较小时,更易发生这类问题而导致治疗上的错误。\n(6)此外,腹股沟区肿块还应与以下疾病鉴别:肿大的淋巴结、动(静)脉瘤、软组织肿瘤、脓肿、\n圆韧带囊肿、子宫内膜异位症等。" }, { "question": "简述该病人的治疗原则。", "solution": "嵌顿性疝原则上需要紧急手术治疗,以防止疝内容物坏死并解除伴发的肠梗阻。术前应做好必要的准备,如有脱水和电解质紊乱,应迅速补液加以纠正。手术的关键在于正确判断疝内容物的活力,然后根据病情确定处理方法。在扩张或切开疝环、解除疝环压迫的前提下,凡肠管呈紫黑色,失去光泽和弹性,刺激后无蠕动和相应肠系膜内无动脉搏动者,即可判定为肠坏死。如肠管尚未坏死,则可将其送回腹腔,按一般易复性疝处理,即行疝囊高位结扎+疝修补术。如肠管确已坏死或一时不能肯定肠管是否已失去活力时,则应在病人全身情况允许的前提下,切除该段肠管并进行一期吻合。凡施行肠切除吻合术的病人,因手术区污染,在高位结扎疝囊后,一般不宜作疝修补术,以免因感染而致修补失败。" } ] }, ``` - title: name of disease - description: information of patient - QA_pairs: a series of questions and their solutions based on the description ## ℹ️ How to evaluate and submit refer to [link](https://github.com/FreedomIntelligence/CMB) ## 😘 Citation Please use the following citation if you intend to use our dataset for training or evaluation: ``` @misc{cmedbenchmark, title={CMB: Chinese Medical Benchmark}, author={Xidong Wang*, Guiming Hardy Chen*, Dingjie Song*, Zhiyi Zhang*, Qingying Xiao, Xiangbo Wu, Feng Jiang, Jianquan Li, Benyou Wang}, note={Xidong Wang, Guiming Hardy Chen, Dingjie Song, and Zhiyi Zhang contributed equally to this github repo.}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/FreedomIntelligence/CMB}}, } ``` ## Acknowledgement - We thank [Shenzhen Research Institute of Big Data](http://www.sribd.cn/) for their enormous support for this project. - We thank the following doctors for participating in the human evaluation of CMB-Clin: - 林士军 (香港中文大学(深圳)附属第二医院) - 常河 - 许晓爽
提供机构:
FreedomIntelligence
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别:
    • 问答
    • 文本生成
  • 语言: 中文
  • 标签:
    • 医学
    • 生物学
    • 化学
  • 大小类别: 100K<n<1M

配置详情

  • CMB-Clin配置:
    • 配置名称: CMB-Clin
    • 数据文件:
      • 分割: 测试
      • 路径: CMB-Clin/CMB-Clin-qa.json
  • CMB-Exam配置:
    • 配置名称: CMB-Exam
    • 数据文件:
      • 分割: 测试
        • 路径: CMB-Exam/CMB-test/CMB-test-choice-question-merge.json
      • 分割: 训练
        • 路径: CMB-Exam/CMB-train/CMB-train-merge.json
      • 分割: 验证
        • 路径: CMB-Exam/CMB-val/CMB-val-merge.json

数据集组成

  • CMB-Exam:
    • 结构: 6大类别和28子类别
    • CMB-test: 总计11200个问题,每个子类别400个问题
    • CMB-val: 280个问题,包含解答和解释
    • CMB-train: 269359个问题,用于医学知识注入
  • CMB-Clin: 74个复杂医学查询案例

数据集项目示例

  • CMB-Exam项目:
    • 类型: 单项选择题
    • 示例: 包括问题、答案、选项等详细信息
  • CMB-Clin项目:
    • 标题: 疾病名称
    • 描述: 患者信息
    • QA_pairs: 基于描述的一系列问题及其解答
AI搜集汇总
数据集介绍
main_image_url
构建方式
CMB数据集的构建基于对中国医学领域的深入研究,涵盖了医学知识的多层次评估。CMB-Exam部分通过收集和整理6大类、28子类的医学考试题目,包括单项选择题和多项选择题,共计269,359道训练题和11,200道测试题,确保了数据集的广泛性和多样性。CMB-Clin部分则收集了74个复杂的临床案例,每个案例包含详细的病人信息和一系列基于案例的问题与解答,旨在模拟真实的临床环境。
使用方法
使用CMB数据集可以通过多种方式进行。首先,用户可以直接从GitHub下载数据集的zip文件并解压使用。其次,通过HuggingFace的datasets库,用户可以方便地加载CMB-Exam和CMB-Clin数据集。例如,使用Python代码可以轻松加载CMB-Exam数据集进行多选题和多答案题的训练和测试。对于CMB-Clin数据集,用户可以利用其中的临床案例进行问题解答和推理训练。数据集的灵活性和多样性使其适用于各种医学相关的研究和应用。
背景与挑战
背景概述
CMB(Chinese Medical Benchmark)数据集是由FreedomIntelligence团队于2023年发布的一个综合性中文医学基准数据集,旨在推动医学领域的问答系统和文本生成技术的发展。该数据集由Xidong Wang、Guiming Hardy Chen等研究人员主导,涵盖了医学知识的多层次评估和复杂临床查询的模拟。CMB数据集的发布标志着中文医学领域在自然语言处理技术应用上的重要进展,为医学教育、临床诊断和医学研究提供了宝贵的资源。
当前挑战
CMB数据集在构建过程中面临多项挑战。首先,医学领域的专业性和复杂性要求数据集在内容上必须高度准确和全面,这涉及到对大量医学知识的系统化整理和验证。其次,数据集的多样性也是一个重要挑战,CMB-Exam涵盖了6大类和28个子类别的医学知识,确保了评估的全面性。此外,临床案例的复杂性和多样性使得CMB-Clin在构建时需要深入的医学专业知识和临床经验的支持,以确保案例的真实性和教育价值。
常用场景
经典使用场景
CMB数据集在医学领域中具有广泛的应用,尤其是在中文医学问答和文本生成任务中表现尤为突出。其经典使用场景包括构建医学知识问答系统,通过CMB-Exam中的多选题和单选题数据,训练模型以准确回答复杂的医学问题。此外,CMB-Clin中的复杂病例分析数据可用于开发临床决策支持系统,帮助医生在实际诊疗中做出更为精准的诊断和治疗建议。
解决学术问题
CMB数据集解决了中文医学领域中缺乏高质量、多层次医学知识评估数据的问题。通过提供包含6大类和28个子类的多层次医学考试题目,CMB-Exam为研究者提供了一个全面的医学知识评估基准。CMB-Clin则通过复杂的临床案例分析,填补了中文医学数据集中临床推理和诊断支持数据的空白,推动了医学人工智能在实际临床应用中的研究进展。
实际应用
在实际应用中,CMB数据集被广泛用于开发和验证医学人工智能系统。例如,CMB-Exam数据可用于训练和评估医学考试辅助系统,帮助医学生和执业医师提高考试成绩。CMB-Clin数据则可用于构建临床决策支持工具,辅助医生在复杂病例中进行快速、准确的诊断和治疗方案制定,从而提升医疗服务的质量和效率。
数据集最近研究
最新研究方向
在医学领域,CMB数据集的最新研究方向主要集中在利用其丰富的中文医学问答和案例分析数据,推动医疗知识图谱的构建与优化。通过整合CMB-Exam和CMB-Clin的多层次评估数据,研究人员致力于开发更精准的医学问答系统和临床决策支持工具。这些系统不仅能够提高医疗诊断的准确性,还能在医学教育和培训中发挥重要作用。此外,CMB数据集的公开和标准化,为全球范围内的医学人工智能研究提供了宝贵的资源,促进了跨学科的合作与创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LEGO数据集

该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息,用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录