FreedomIntelligence/CMB
收藏Hugging Face2024-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/CMB
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- question-answering
- text-generation
language:
- zh
tags:
- medical
- biology
- chemistry
size_categories:
- 100K<n<1M
configs:
- config_name: CMB-Clin
data_files:
- split: test
path: CMB-Clin/CMB-Clin-qa.json
- config_name: CMB-Exam
data_files:
- split: test
path: CMB-Exam/CMB-test/CMB-test-choice-question-merge.json
- split: train
path: CMB-Exam/CMB-train/CMB-train-merge.json
- split: val
path: CMB-Exam/CMB-val/CMB-val-merge.json
---
# CMB: A Comprehensive Medical Benchmark in Chinese

<p align="center">
🌐 <a href="https://github.com/FreedomIntelligence/CMB" target="_blank">Github</a> • 🌐 <a href="https://cmedbenchmark.llmzoo.com/#home" target="_blank">Website</a> • 🤗 <a href="https://huggingface.co/datasets/FreedomIntelligence/CMB" target="_blank">HuggingFace</a>
## 🌈 Update
* **[2024.02.21]** The [answers](https://github.com/FreedomIntelligence/CMB/tree/main/data) to the CMB-Exam test has been updated and some errors caused by omissions in version management have been fixed.
* **[2024.01.08]** In order to facilitate testing, we disclose the [answers](https://github.com/FreedomIntelligence/CMB/tree/main/data) to the CMB-Exam test
* **[2023.09.22]** CMB is included in [OpenCompass](https://github.com/open-compass/opencompass).
* **[2023.08.21]** [Paper](https://arxiv.org/abs/2308.08833) released.
* **[2023.08.01]** 🎉🎉🎉 CMB is published!🎉🎉🎉
## 🌐 Download Data
- (Recommended) Download the [zip file](https://github.com/FreedomIntelligence/CMB/tree/main/data) and unzip:
```bash
git clone "https://github.com/FreedomIntelligence/CMB.git" && cd CMB && unzip "./data/CMB.zip" -d "./data/" && rm "./data/CMB.zip"
```
- Or load our data as follows:
```python
from datasets import load_dataset
# CMB-Exam datasets (multiple-choice and multiple-answer questions)
exam_datasets = load_dataset('FreedomIntelligence/CMB','exam')
# CMB-Clin datasets
clin_datasets = load_dataset('FreedomIntelligence/CMB','clin')
```
## 🥇 Leaderboard
Please Check [Leaderboard](https://cmedbenchmark.llmzoo.com/static/leaderboard.html).
## 🥸 Dataset intro

### Components
- CMB-Exam: Comprehensive multi-level assessment for medical knowledge
- Structure: 6 major categories and 28 subcategories, [View Catalog](catalog.md)
- CMB-test: 400 questions per subcategories, 11200 questions in total
- CMB-val: 280 questions with solutions and explanations; used as source for CoT and few-shot
- CMB-train: 269359 questions for medical knowledge injection
- CMB-Clin: 74 cases of complex medical inquires
### CMB-Exam Item
```json
{
"exam_type": "医师考试",
"exam_class": "执业医师",
"exam_subject": "口腔执业医师",
"question": "患者,男性,11岁。近2个月来时有低热(37~38℃),全身无明显症状。查体无明显阳性体征。X线检查发现右肺中部有一直径约0.8cm类圆形病灶,边缘稍模糊,肺门淋巴结肿大。此男孩可能患",
"answer": "D",
"question_type": "单项选择题",
"option": {
"A": "小叶型肺炎",
"B": "浸润性肺结核",
"C": "继发性肺结核",
"D": "原发性肺结核",
"E": "粟粒型肺结核"
}
},
```
- exam_type: major category
- exam_class: sub-category
- exam_subject: Specific departments or subdivisions of disciplines
- question_type: *multiple-choice (单项选择题)* or *multiple-answer (多项选择题)*
### CMB-Clin Item
```json
{
"id": 0,
"title": "案例分析-腹外疝",
"description": "现病史\n(1)病史摘要\n 病人,男,49岁,3小时前解大便后出现右下腹疼痛,右下腹可触及一包块,既往体健。\n(2)主诉\n 右下腹痛并自扪及包块3小时。\n\n体格检查\n体温: T 37.8℃,P 101次/分,呼吸22次/分,BP 100/60mmHg,腹软,未见胃肠型蠕动波,肝脾肋下未及,于右侧腹股沟区可扪及一圆形肿块,约4cm×4cm大小,有压痛、界欠清,且肿块位于腹股沟韧带上内方。\n\n辅助检查\n(1)实验室检查\n 血常规:WBC 5.0×109/L,N 78%。\n 尿常规正常。\n(2)多普勒超声检查\n 沿腹股沟纵切可见一多层分布的混合回声区,宽窄不等,远端膨大,边界整齐,长约4~5cm。\n(3)腹部X线检查\n 可见阶梯状液气平。",
"QA_pairs": [
{
"question": "简述该病人的诊断及诊断依据。",
"solution": "诊断:嵌顿性腹股沟斜疝合并肠梗阻。\n诊断依据:\n①右下腹痛并自扪及包块3小时;\n②有腹胀、呕吐,类似肠梗阻表现;腹部平片可见阶梯状液平,考虑肠梗阻可能;腹部B超考虑,\n腹部包块内可能为肠管可能;\n③有轻度毒性反应或是中毒反应,如 T 37.8℃,P 101次/分,白细胞中性分类78%;\n④腹股沟区包块位于腹股沟韧带上内方。"
},
{
"question": "简述该病人的鉴别诊断。",
"solution": "(1)睾丸鞘膜积液:鞘膜积液所呈现的肿块完全局限在阴囊内,其上界可以清楚地摸到;用透光试验检查肿块,鞘膜积液多为透光(阳性),而疝块则不能透光。\n(2)交通性鞘膜积液:肿块的外形与睾丸鞘膜积液相似。于每日起床后或站立活动时肿块缓慢地出现并增大。平卧或睡觉后肿块逐渐缩小,挤压肿块,其体积也可逐渐缩小。透光试验为阳性。\n(3)精索鞘膜积液:肿块较小,在腹股沟管内,牵拉同侧睾丸可见肿块移动。\n(4)隐睾:腹股沟管内下降不全的睾丸可被误诊为斜疝或精索鞘膜积液。隐睾肿块较小,挤压时可出现特有的胀痛感觉。如患侧阴囊内睾丸缺如,则诊断更为明确。\n(5)急性肠梗阻:肠管被嵌顿的疝可伴发急性肠梗阻,但不应仅满足于肠梗阻的诊断而忽略疝的存在;尤其是病人比较肥胖或疝块较小时,更易发生这类问题而导致治疗上的错误。\n(6)此外,腹股沟区肿块还应与以下疾病鉴别:肿大的淋巴结、动(静)脉瘤、软组织肿瘤、脓肿、\n圆韧带囊肿、子宫内膜异位症等。"
},
{
"question": "简述该病人的治疗原则。",
"solution": "嵌顿性疝原则上需要紧急手术治疗,以防止疝内容物坏死并解除伴发的肠梗阻。术前应做好必要的准备,如有脱水和电解质紊乱,应迅速补液加以纠正。手术的关键在于正确判断疝内容物的活力,然后根据病情确定处理方法。在扩张或切开疝环、解除疝环压迫的前提下,凡肠管呈紫黑色,失去光泽和弹性,刺激后无蠕动和相应肠系膜内无动脉搏动者,即可判定为肠坏死。如肠管尚未坏死,则可将其送回腹腔,按一般易复性疝处理,即行疝囊高位结扎+疝修补术。如肠管确已坏死或一时不能肯定肠管是否已失去活力时,则应在病人全身情况允许的前提下,切除该段肠管并进行一期吻合。凡施行肠切除吻合术的病人,因手术区污染,在高位结扎疝囊后,一般不宜作疝修补术,以免因感染而致修补失败。"
}
]
},
```
- title: name of disease
- description: information of patient
- QA_pairs: a series of questions and their solutions based on the description
## ℹ️ How to evaluate and submit refer to [link](https://github.com/FreedomIntelligence/CMB)
## 😘 Citation
Please use the following citation if you intend to use our dataset for training or evaluation:
```
@misc{cmedbenchmark,
title={CMB: Chinese Medical Benchmark},
author={Xidong Wang*, Guiming Hardy Chen*, Dingjie Song*, Zhiyi Zhang*, Qingying Xiao, Xiangbo Wu, Feng Jiang, Jianquan Li, Benyou Wang},
note={Xidong Wang, Guiming Hardy Chen, Dingjie Song, and Zhiyi Zhang contributed equally to this github repo.},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/FreedomIntelligence/CMB}},
}
```
## Acknowledgement
- We thank [Shenzhen Research Institute of Big Data](http://www.sribd.cn/) for their enormous support for this project.
- We thank the following doctors for participating in the human evaluation of CMB-Clin:
- 林士军 (香港中文大学(深圳)附属第二医院)
- 常河
- 许晓爽
许可证:Apache-2.0
任务类别:
- 问答
- 文本生成
语言:
- 中文
标签:
- 医疗
- 生物学
- 化学
规模类别:
- 10万<n<100万
配置项:
- 配置名称:CMB-Clin
数据文件:
- 拆分方式:测试集
路径:CMB-Clin/CMB-Clin-qa.json
- 配置名称:CMB-Exam
数据文件:
- 拆分方式:测试集
路径:CMB-Exam/CMB-test/CMB-test-choice-question-merge.json
- 拆分方式:训练集
路径:CMB-Exam/CMB-train/CMB-train-merge.json
- 拆分方式:验证集
路径:CMB-Exam/CMB-val/CMB-val-merge.json
# CMB:中文综合医疗基准测试集

<p align="center">
🌐 <a href="https://github.com/FreedomIntelligence/CMB" target="_blank">Github</a> • 🌐 <a href="https://cmedbenchmark.llmzoo.com/#home" target="_blank">官方网站</a> • 🤗 <a href="https://huggingface.co/datasets/FreedomIntelligence/CMB" target="_blank">HuggingFace</a>
</p>
## 🌈 更新记录
* **[2024.02.21]** 更新了CMB-Exam测试集的[参考答案](https://github.com/FreedomIntelligence/CMB/tree/main/data),修复了因版本管理疏漏导致的部分错误。
* **[2024.01.08]** 为便于测试,我们公开了CMB-Exam测试集的[参考答案](https://github.com/FreedomIntelligence/CMB/tree/main/data)
* **[2023.09.22]** CMB已被纳入[OpenCompass](https://github.com/open-compass/opencompass)评测框架。
* **[2023.08.21]** 相关[研究论文](https://arxiv.org/abs/2308.08833)正式发布。
* **[2023.08.01]** 🎉🎉🎉 CMB数据集正式发表!🎉🎉🎉
## 🌐 数据获取
- (推荐方式)下载[压缩包](https://github.com/FreedomIntelligence/CMB/tree/main/data)并解压:
bash
git clone "https://github.com/FreedomIntelligence/CMB.git" && cd CMB && unzip "./data/CMB.zip" -d "./data/" && rm "./data/CMB.zip"
- 或通过以下方式加载数据集:
python
from datasets import load_dataset
# CMB-Exam 数据集(包含单项与多项选择题)
exam_datasets = load_dataset('FreedomIntelligence/CMB','exam')
# CMB-Clin 数据集
clin_datasets = load_dataset('FreedomIntelligence/CMB','clin')
## 🥇 排行榜
请查阅[官方排行榜](https://cmedbenchmark.llmzoo.com/static/leaderboard.html)。
## 🥸 数据集概览

### 数据集组成
- CMB-Exam:医疗知识综合多维度评估集
- 结构:涵盖6大类别与28个子类别,[查看类目清单](catalog.md)
- CMB-test:每个子类包含400道题目,总计11200道题目
- CMB-val:280道附带解析的题目,可用于思维链(Chain-of-Thought, CoT)与少样本(Few-shot)学习
- CMB-train:269359道题目,用于医疗知识注入
- CMB-Clin:74例复杂医疗问诊案例
### CMB-Exam 单条数据示例
json
{
"exam_type": "医师考试",
"exam_class": "执业医师",
"exam_subject": "口腔执业医师",
"question": "患者,男性,11岁。近2个月来时有低热(37~38℃),全身无明显症状。查体无明显阳性体征。X线检查发现右肺中部有一直径约0.8cm类圆形病灶,边缘稍模糊,肺门淋巴结肿大。此男孩可能患",
"answer": "D",
"question_type": "单项选择题",
"option": {
"A": "小叶型肺炎",
"B": "浸润性肺结核",
"C": "继发性肺结核",
"D": "原发性肺结核",
"E": "粟粒型肺结核"
}
},
- exam_type:考试大类
- exam_class:考试子类
- exam_subject:具体科室或学科细分领域
- question_type:*单项选择题(multiple-choice)* 或 *多项选择题(multiple-answer)*
### CMB-Clin 单条数据示例
json
{
"id": 0,
"title": "案例分析-腹外疝",
"description": "现病史
(1)病史摘要
病人,男,49岁,3小时前解大便后出现右下腹疼痛,右下腹可触及一包块,既往体健。
(2)主诉
右下腹痛并自扪及包块3小时。
体格检查
体温: T 37.8℃,P 101次/分,呼吸22次/分,BP 100/60mmHg,腹软,未见胃肠型蠕动波,肝脾肋下未及,于右侧腹股沟区可扪及一圆形肿块,约4cm×4cm大小,有压痛、界欠清,且肿块位于腹股沟韧带上内方。
辅助检查
(1)实验室检查
血常规:WBC 5.0×109/L,N 78%。
尿常规正常。
(2)多普勒超声检查
沿腹股沟纵切可见一多层分布的混合回声区,宽窄不等,远端膨大,边界整齐,长约4~5cm。
(3)腹部X线检查
可见阶梯状液气平。",
"QA_pairs": [
{
"question": "简述该病人的诊断及诊断依据。",
"solution": "诊断:嵌顿性腹股沟斜疝合并肠梗阻。
诊断依据:
①右下腹痛并自扪及包块3小时;
②有腹胀、呕吐,类似肠梗阻表现;腹部平片可见阶梯状液平,考虑肠梗阻可能;腹部B超考虑,
腹部包块内可能为肠管可能;
③有轻度毒性反应或是中毒反应,如 T 37.8℃,P 101次/分,白细胞中性分类78%;
④腹股沟区包块位于腹股沟韧带上内方。"
},
{
"question": "简述该病人的鉴别诊断。",
"solution": "(1)睾丸鞘膜积液:鞘膜积液所呈现的肿块完全局限在阴囊内,其上界可以清楚地摸到;用透光试验检查肿块,鞘膜积液多为透光(阳性),而疝块则不能透光。
(2)交通性鞘膜积液:肿块的外形与睾丸鞘膜积液相似。于每日起床后或站立活动时肿块缓慢地出现并增大。平卧或睡觉后肿块逐渐缩小,挤压肿块,其体积也可逐渐缩小。透光试验为阳性。
(3)精索鞘膜积液:肿块较小,在腹股沟管内,牵拉同侧睾丸可见肿块移动。
(4)隐睾:腹股沟管内下降不全的睾丸可被误诊为斜疝或精索鞘膜积液。隐睾肿块较小,挤压时可出现特有的胀痛感觉。如患侧阴囊内睾丸缺如,则诊断更为明确。
(5)急性肠梗阻:肠管被嵌顿的疝可伴发急性肠梗阻,但不应仅满足于肠梗阻的诊断而忽略疝的存在;尤其是病人比较肥胖或疝块较小时,更易发生这类问题而导致治疗上的错误。
(6)此外,腹股沟区肿块还应与以下疾病鉴别:肿大的淋巴结、动(静)脉瘤、软组织肿瘤、脓肿、
圆韧带囊肿、子宫内膜异位症等。"
},
{
"question": "简述该病人的治疗原则。",
"solution": "嵌顿性疝原则上需要紧急手术治疗,以防止疝内容物坏死并解除伴发的肠梗阻。术前应做好必要的准备,如有脱水和电解质紊乱,应迅速补液加以纠正。手术的关键在于正确判断疝内容物的活力,然后根据病情确定处理方法。在扩张或切开疝环、解除疝环压迫的前提下,凡肠管呈紫黑色,失去光泽和弹性,刺激后无蠕动和相应肠系膜内无动脉搏动者,即可判定为肠坏死。如肠管尚未坏死,则可将其送回腹腔,按一般易复性疝处理,即行疝囊高位结扎+疝修补术。如肠管确已坏死或一时不能肯定肠管是否已失去活力时,则应在病人全身情况允许的前提下,切除该段肠管并进行一期吻合。凡施行肠切除吻合术的病人,因手术区污染,在高位结扎疝囊后,一般不宜作疝修补术,以免因感染而致修补失败。"
}
]
},
- title:疾病名称
- description:患者详细信息
- QA_pairs:基于上述信息的一系列问答对及其解析
## ℹ️ 如何评估与提交
请参照[链接](https://github.com/FreedomIntelligence/CMB)。
## 😘 引用方式
若您将本数据集用于训练或评估,请使用如下引用格式:
@misc{cmedbenchmark,
title={CMB: Chinese Medical Benchmark},
author={Xidong Wang*, Guiming Hardy Chen*, Dingjie Song*, Zhiyi Zhang*, Qingying Xiao, Xiangbo Wu, Feng Jiang, Jianquan Li, Benyou Wang},
note={Xidong Wang, Guiming Hardy Chen, Dingjie Song, and Zhiyi Zhang contributed equally to this github repo.},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/FreedomIntelligence/CMB}},
}
## 致谢
- 感谢[深圳大数据研究院](http://www.sribd.cn/)为本项目提供的大力支持。
- 感谢以下医生参与CMB-Clin的人工评估工作:
- 林士军(香港中文大学(深圳)附属第二医院)
- 常河
- 许晓爽
提供机构:
FreedomIntelligence
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别:
- 问答
- 文本生成
- 语言: 中文
- 标签:
- 医学
- 生物学
- 化学
- 大小类别: 100K<n<1M
配置详情
- CMB-Clin配置:
- 配置名称: CMB-Clin
- 数据文件:
- 分割: 测试
- 路径: CMB-Clin/CMB-Clin-qa.json
- CMB-Exam配置:
- 配置名称: CMB-Exam
- 数据文件:
- 分割: 测试
- 路径: CMB-Exam/CMB-test/CMB-test-choice-question-merge.json
- 分割: 训练
- 路径: CMB-Exam/CMB-train/CMB-train-merge.json
- 分割: 验证
- 路径: CMB-Exam/CMB-val/CMB-val-merge.json
- 分割: 测试
数据集组成
- CMB-Exam:
- 结构: 6大类别和28子类别
- CMB-test: 总计11200个问题,每个子类别400个问题
- CMB-val: 280个问题,包含解答和解释
- CMB-train: 269359个问题,用于医学知识注入
- CMB-Clin: 74个复杂医学查询案例
数据集项目示例
- CMB-Exam项目:
- 类型: 单项选择题
- 示例: 包括问题、答案、选项等详细信息
- CMB-Clin项目:
- 标题: 疾病名称
- 描述: 患者信息
- QA_pairs: 基于描述的一系列问题及其解答
搜集汇总
数据集介绍

构建方式
CMB数据集的构建基于对中国医学领域的深入研究,涵盖了医学知识的多层次评估。CMB-Exam部分通过收集和整理6大类、28子类的医学考试题目,包括单项选择题和多项选择题,共计269,359道训练题和11,200道测试题,确保了数据集的广泛性和多样性。CMB-Clin部分则收集了74个复杂的临床案例,每个案例包含详细的病人信息和一系列基于案例的问题与解答,旨在模拟真实的临床环境。
使用方法
使用CMB数据集可以通过多种方式进行。首先,用户可以直接从GitHub下载数据集的zip文件并解压使用。其次,通过HuggingFace的datasets库,用户可以方便地加载CMB-Exam和CMB-Clin数据集。例如,使用Python代码可以轻松加载CMB-Exam数据集进行多选题和多答案题的训练和测试。对于CMB-Clin数据集,用户可以利用其中的临床案例进行问题解答和推理训练。数据集的灵活性和多样性使其适用于各种医学相关的研究和应用。
背景与挑战
背景概述
CMB(Chinese Medical Benchmark)数据集是由FreedomIntelligence团队于2023年发布的一个综合性中文医学基准数据集,旨在推动医学领域的问答系统和文本生成技术的发展。该数据集由Xidong Wang、Guiming Hardy Chen等研究人员主导,涵盖了医学知识的多层次评估和复杂临床查询的模拟。CMB数据集的发布标志着中文医学领域在自然语言处理技术应用上的重要进展,为医学教育、临床诊断和医学研究提供了宝贵的资源。
当前挑战
CMB数据集在构建过程中面临多项挑战。首先,医学领域的专业性和复杂性要求数据集在内容上必须高度准确和全面,这涉及到对大量医学知识的系统化整理和验证。其次,数据集的多样性也是一个重要挑战,CMB-Exam涵盖了6大类和28个子类别的医学知识,确保了评估的全面性。此外,临床案例的复杂性和多样性使得CMB-Clin在构建时需要深入的医学专业知识和临床经验的支持,以确保案例的真实性和教育价值。
常用场景
经典使用场景
CMB数据集在医学领域中具有广泛的应用,尤其是在中文医学问答和文本生成任务中表现尤为突出。其经典使用场景包括构建医学知识问答系统,通过CMB-Exam中的多选题和单选题数据,训练模型以准确回答复杂的医学问题。此外,CMB-Clin中的复杂病例分析数据可用于开发临床决策支持系统,帮助医生在实际诊疗中做出更为精准的诊断和治疗建议。
解决学术问题
CMB数据集解决了中文医学领域中缺乏高质量、多层次医学知识评估数据的问题。通过提供包含6大类和28个子类的多层次医学考试题目,CMB-Exam为研究者提供了一个全面的医学知识评估基准。CMB-Clin则通过复杂的临床案例分析,填补了中文医学数据集中临床推理和诊断支持数据的空白,推动了医学人工智能在实际临床应用中的研究进展。
实际应用
在实际应用中,CMB数据集被广泛用于开发和验证医学人工智能系统。例如,CMB-Exam数据可用于训练和评估医学考试辅助系统,帮助医学生和执业医师提高考试成绩。CMB-Clin数据则可用于构建临床决策支持工具,辅助医生在复杂病例中进行快速、准确的诊断和治疗方案制定,从而提升医疗服务的质量和效率。
数据集最近研究
最新研究方向
在医学领域,CMB数据集的最新研究方向主要集中在利用其丰富的中文医学问答和案例分析数据,推动医疗知识图谱的构建与优化。通过整合CMB-Exam和CMB-Clin的多层次评估数据,研究人员致力于开发更精准的医学问答系统和临床决策支持工具。这些系统不仅能够提高医疗诊断的准确性,还能在医学教育和培训中发挥重要作用。此外,CMB数据集的公开和标准化,为全球范围内的医学人工智能研究提供了宝贵的资源,促进了跨学科的合作与创新。
以上内容由遇见数据集搜集并总结生成



