five

CMB Chinese-Medical-Benchmark|医学评估数据集|医学训练数据集

收藏
github2024-05-28 更新2024-05-31 收录
医学评估
医学训练
下载链接:
https://github.com/Mengqi97/chinese-medical-dataset
下载链接
链接失效反馈
资源简介:
CMD基准介绍网址:https://github.com/FreedomIntelligence/CMB。CMD数据集汇总包括CMB-Exam和CMB-Clin。CMB-Exam是医学知识综合多层次评估,包含269359个训练问题,280个验证问题和11200个测试问题,分为6大类28小类。CMB-Clin包含74例复杂医疗询问。

CMD基准之介绍可查阅网址:https://github.com/FreedomIntelligence/CMB。CMD数据集之汇总涵盖CMB-Exam与CMB-Clin两大类别。CMB-Exam专为医学知识的综合多层次评估而设,内含269,359个训练问题,280个验证问题以及11,200个测试问题,细分为六大类与二十八小类。CMB-Clin则收录了74例复杂的医疗询问案例。
创建时间:
2024-05-28
原始信息汇总

中文医学数据集详细整理

1、【分类&医疗问答】CMB Chinese-Medical-Benchmark

1.1、CMD数据集汇总

名称 内容 数据量 数据下载
CMB-Exam 医学知识综合多层次评估 train/valid/test: 269359/280/11200 百度网盘<br />其他下载方式git clone/huggingface从CMD基准介绍网址获取
CMB-Clin 74例复杂医疗询问 74 百度网盘<br />其他下载方式git clone/huggingface从CMD基准介绍网址获取

1.2、数据示例

1.2.1、CMD-Exam数据示例

json { "exam_type": "医师考试", "exam_class": "执业医师", "exam_subject": "口腔执业医师", "question": "患者,男性,11岁。近2个月来时有低热(37~38℃),全身无明显症状。查体无明显阳性体征。X线检查发现右肺中部有一直径约0.8cm类圆形病灶,边缘稍模糊,肺门淋巴结肿大。此男孩可能患", "answer": "D", "question_type": "单项选择题", "option": { "A": "小叶型肺炎", "B": "浸润性肺结核", "C": "继发性肺结核", "D": "原发性肺结核", "E": "粟粒型肺结核" } },

1.2.2、CMD-Clin数据示例

json { "id": 0, "title": "案例分析-腹外疝", "description": "现病史 (1)病史摘要 病人,男,49岁,3小时前解大便后出现右下腹疼痛,右下腹可触及一包块,既往体健。 (2)主诉 右下腹痛并自扪及包块3小时。

体格检查 体温: T 37.8℃,P 101次/分,呼吸22次/分,BP 100/60mmHg,腹软,未见胃肠型蠕动波,肝脾肋下未及,于右侧腹股沟区可扪及一圆形肿块,约4cm×4cm大小,有压痛、界欠清,且肿块位于腹股沟韧带上内方。

辅助检查 (1)实验室检查 血常规:WBC 5.0×109/L,N 78%。 尿常规正常。 (2)多普勒超声检查 沿腹股沟纵切可见一多层分布的混合回声区,宽窄不等,远端膨大,边界整齐,长约4~5cm。 (3)腹部X线检查 可见阶梯状液气平。", "QA_pairs": [ { "question": "简述该病人的诊断及诊断依据。", "solution": "诊断:嵌顿性腹股沟斜疝合并肠梗阻。 诊断依据: ①右下腹痛并自扪及包块3小时; ②有腹胀、呕吐,类似肠梗阻表现;腹部平片可见阶梯状液平,考虑肠梗阻可能;腹部B超考虑, 腹部包块内可能为肠管可能; ③有轻度毒性反应或是中毒反应,如 T 37.8℃,P 101次/分,白细胞中性分类78%; ④腹股沟区包块位于腹股沟韧带上内方。" }, { "question": "简述该病人的鉴别诊断。", "solution": "(1)睾丸鞘膜积液:鞘膜积液所呈现的肿块完全局限在阴囊内,其上界可以清楚地摸到;用透光试验检查肿块,鞘膜积液多为透光(阳性),而疝块则不能透光。 (2)交通性鞘膜积液:肿块的外形与睾丸鞘膜积液相似。于每日起床后或站立活动时肿块缓慢地出现并增大。平卧或睡觉后肿块逐渐缩小,挤压肿块,其体积也可逐渐缩小。透光试验为阳性。 (3)精索鞘膜积液:肿块较小,在腹股沟管内,牵拉同侧睾丸可见肿块移动。 (4)隐睾:腹股沟管内下降不全的睾丸可被误诊为斜疝或精索鞘膜积液。隐睾肿块较小,挤压时可出现特有的胀痛感觉。如患侧阴囊内睾丸缺如,则诊断更为明确。 (5)急性肠梗阻:肠管被嵌顿的疝可伴发急性肠梗阻,但不应仅满足于肠梗阻的诊断而忽略疝的存在;尤其是病人比较肥胖或疝块较小时,更易发生这类问题而导致治疗上的错误。 (6)此外,腹股沟区肿块还应与以下疾病鉴别:肿大的淋巴结、动(静)脉瘤、软组织肿瘤、脓肿、 圆韧带囊肿、子宫内膜异位症等。" }, { "question": "简述该病人的治疗原则。", "solution": "嵌顿性疝原则上需要紧急手术治疗,以防止疝内容物坏死并解除伴发的肠梗阻。术前应做好必要的准备,如有脱水和电解质紊乱,应迅速补液加以纠正。手术的关键在于正确判断疝内容物的活力,然后根据病情确定处理方法。在扩张或切开疝环、解除疝环压迫的前提下,凡肠管呈紫黑色,失去光泽和弹性,刺激后无蠕动和相应肠系膜内无动脉搏动者,即可判定为肠坏死。如肠管尚未坏死,则可将其送回腹腔,按一般易复性疝处理,即行疝囊高位结扎+疝修补术。如肠管确已坏死或一时不能肯定肠管是否已失去活力时,则应在病人全身情况允许的前提下,切除该段肠管并进行一期吻合。凡施行肠切除吻合术的病人,因手术区污染,在高位结扎疝囊后,一般不宜作疝修补术,以免因感染而致修补失败。" } ] },

2、【医疗问答】Huatuo-26M

2.1、Huatuo数据集汇总

名称 数据量 数据下载
在线医疗百科 364,420 huatuo_encyclopedia_qa
医疗知识图谱 798,444 huatuo_knowledge_graph_qa
网络上的公开医疗问答论坛 32,708,346 huatuo_consultation_qa
论文中使用的huatuo测试集 6,000 huatuo26M-testdatasets

2.2、数据示例

2.2.1、在线医疗百科数据示例

json { "questions": [["睾丸积液是怎么造成的"]], "answers": ["睾丸积液即睾丸鞘膜积液,睾丸鞘膜积液是围绕睾丸的鞘膜腔内液体积聚超过正常量,而形成的囊肿病变,可见于各种年龄,是一种临床常见疾病,睾丸鞘膜是包在睾丸外面的双层膜,是睾丸从腹腔下降过程中带入阴囊的腹膜,睾丸积液是怎么造成的?在胚胎发育的过程中,睾丸是不位于阴囊的,它是在后腹膜。随着胎儿的发育,逐渐下降,在出生时下降进入阴囊。进入阴囊后会带一部分腹膜,出生时腹膜的腔与腹腔关闭、不通。正常情况下,睾丸鞘膜腔会有少量的液体,起到润滑的作用。如果睾丸鞘膜腔内的液体生成速度大于吸收的速度。那么在鞘膜腔内的积液会逐渐增多,从而导致了睾丸鞘膜积液。睾丸鞘膜积液多了,可以影响排尿,所以出现睾丸鞘膜积液,还是应该手术治疗。睾丸鞘膜积液是一种比较常见的疾病,主要的发病原因是由于急性附睾炎,或者附睾肿瘤等相关疾病造成的。另外,如果鞘状突闭合不佳,也可以出现睾丸鞘膜积液。睾丸鞘膜积液可以通过彩超等检查明确诊断。如果是肿瘤引起的,这个情况需要切除肿瘤,才能够彻底治愈。急性附睾炎或者鞘状突闭合不佳造成的鞘膜积液,一般需要通过手术的方式才能治愈。正常情况下,睾丸鞘膜腔内的液体的分泌与吸收保持着一个相对的平衡的状态,使睾丸鞘膜腔内液体保持少量状态。当分泌过多或者淋巴、静脉回收减少的时候睾丸鞘膜腔内的液体滞留过多,引起积液。严重时可引起阴囊坠胀痛,甚至阴茎回缩影响排尿。以上介绍了睾丸积液是怎么造成的,睾丸鞘膜积液是围绕睾丸的鞘膜腔内液体积聚超过正常量,而形成的囊肿病变,可见于各种年龄,是一种临床常见疾病,继发性鞘膜积液有原发性疾病,如急性睾丸炎、附睾炎、精索炎等,刺激鞘膜渗出增加,造成积液。"] }

2.2.2、医疗知识图谱

json { "questions": ["自体及异体CIK的临床表现有些什么?"], "answers": ["低热"] }

2.2.3、网络上的公开医疗问答论坛

json { "questions": ["左侧髋骨粉碎性骨折多久才能走路"], "answers": ["https://www.51zyzy.com/question/detail/9814309.html"] }

2.2.4、Huatuo测试集数据示例

json { "questions": "做了腰间盘穿丁手术后,用盐泡脚可以吗", "answers": "问题分析:你好:你是由于身体出现了一些局部的腰部损伤这种情况应该进行调整的一般术后泡脚是可以的,不用担心。意见建议:治疗方案:你可以不知后注意休息,避免劳累过度就可以这种调整方法也可以住进你身体的一些嗯调理的啊!" }

3、【实体识别&属性抽取】Yidu-S4K

3.1、数据集汇总

名称 任务 数据量 数据下载
subtask1 医疗命名实体识别 train/test:1000/379 http://openkg1.oss-cn-beijing.aliyuncs.com/590d97bd-18fb-49d1-89f8-d6a3802b2040/yidu-s4k.zip
subtask2 医疗实体及属性抽取(跨院迁移) unlabeled:1000<br />train/test:500/400 http://openkg1.oss-cn-beijing.aliyuncs.com/590d97bd-18fb-49d1-89f8-d6a3802b2040/yidu-s4k.zip

3.2、任务描述

  1. 医疗命名实体识别:对于给定的一组电子病历纯文本文档,任务的目标是识别并抽取出与医学临床相关的实体提及(entity mention),并将它们归类到预定义类别(pre-defined categories),比如疾病、治疗、检查检验等。
  2. 给定的一组电子病历纯文本文档,定义若干与医疗相关的目标字段,如肿瘤大小,肿瘤原发部位等,任务的目标是识别并抽取目标字段的答案实体,比如左肺,肺叶等。 本任务为实体及属性抽取问题的跨院迁移任务,即在只提供需要识别的场景的少量标注数据的情况下,提供大量来自其他场景的已知数据分布不同的标注数据,以及大量非标注数据,进行目标场景的识别任务。

3.3、数据示例

3.3.1、医疗命名实体识别数据示例

json { "originalText": ",患者3月前因“直肠癌”于在我院于全麻下行直肠癌根治术(DIXON术),手术过程顺利,术后给予抗感染及营养支持治疗,患者恢复好,切口愈合良好。,术后病理示:直肠腺癌(中低度分化),浸润溃疡型,面积3.5*2CM,侵达外膜。双端切线另送“近端”、“远端”及环周底部切除面未查见癌。肠壁一站(10个)、中间组(8个)淋巴结未查见癌。,免疫组化染色示:ERCC1弥漫(+)、TS少部分弱(+)、SYN(-)、CGA(-)。术后查无化疗禁忌后给予3周期化疗,,方案为:奥沙利铂150MG D1,亚叶酸钙0.3G+替加氟1.0G D2-D6,同时给与升白细胞、护肝、止吐、免疫增强治疗,患者副反应轻。院外期间患者一般情况好,无恶心,无腹痛腹胀胀不适,无现患者为行复查及化疗再次来院就诊,门诊以“直肠癌术后”收入院。 近期患者精神可,饮食可,大便正常,小便正常,近期体重无明显变化。", "entities": [{"label_type": "疾病和诊断", "overlap": 0, "start_pos": 8, "end_pos": 11}, {"label_type": "手术", "overlap": 0, "start_pos": 21, "end_pos": 35}, {"label_type": "疾病和诊断", "overlap": 0, "start_pos": 78, "end_pos": 95}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 139, "end_pos": 159}, {"end_pos": 234, "label_type": "药物", "overlap": 0, "start_pos": 230}, {"end_pos": 247, "label_type": "药物", "overlap": 0, "start_pos": 243}, {"end_pos": 255, "label_type": "药物", "overlap": 0, "start_pos": 252}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 276, "end_pos": 277}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 312, "end_pos": 313}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 314, "end_pos": 315}, {"label_type": "疾病和诊断", "overlap": 0, "start_pos": 342, "end_pos": 347}] }

3.3.2、医疗实体及属性抽取(跨院迁移)数据示例
原文 肿瘤原发部位 原发病灶大小 转移部位
右乳术后缺如,部分胸肌存在,术区胸壁及皮肤局部略增厚;右侧腋窝术后,结构紊乱。左乳未见明确异常。右侧内乳区、左侧腋窝可见小淋巴结,大者短径不足0.5CM。右肺中叶见一结节
AI搜集汇总
数据集介绍
main_image_url
构建方式
CMB Chinese-Medical-Benchmark数据集的构建基于医学知识综合多层次评估和复杂医疗询问的需求。数据集分为两个主要部分:CMB-Exam和CMB-Clin。CMB-Exam包含269,359个训练问题、280个验证问题和11,200个测试问题,涵盖6大类28小类医学知识。CMB-Clin则包含74例复杂医疗询问,每例询问包含多个问题及其解决方案。数据集通过专业医学团队的精心标注和整理,确保了数据的高质量和专业性。
特点
CMB Chinese-Medical-Benchmark数据集的特点在于其全面性和专业性。CMB-Exam部分涵盖了广泛的医学知识领域,从基础医学到临床实践,提供了丰富的多层次评估问题。CMB-Clin部分则专注于复杂医疗询问,模拟真实临床环境中的问题解决过程。此外,数据集的结构化设计使得研究人员可以方便地进行分类和医疗问答任务的训练和评估。
使用方法
使用CMB Chinese-Medical-Benchmark数据集时,研究人员可以根据需求选择CMB-Exam或CMB-Clin部分进行训练和测试。对于CMB-Exam,可以使用提供的训练集、验证集和测试集进行模型训练和性能评估。对于CMB-Clin,可以利用其中的复杂医疗询问进行更深入的问答系统开发和评估。数据集的下载和使用可以通过GitHub页面提供的链接进行,确保数据的合法和安全使用。
背景与挑战
背景概述
CMB Chinese-Medical-Benchmark(CMB)数据集是由哈尔滨工业大学智能信息处理研究所的mzcai@ir.hit.edu.cn团队创建的,旨在为中文医学领域的分类和医疗问答任务提供一个综合性的基准。该数据集的构建时间不详,但其主要研究人员和机构为哈尔滨工业大学,核心研究问题集中在医学知识的综合评估和复杂医疗询问的处理。CMB数据集的推出,为中文医学信息处理领域提供了一个重要的资源,有助于推动相关技术的研究和发展。
当前挑战
CMB数据集在构建过程中面临多项挑战。首先,医学知识的综合多层次评估需要对大量医学文献和临床数据进行深入分析和标注,这要求研究人员具备高度的专业知识和严谨的工作态度。其次,复杂医疗询问的处理涉及到对患者信息的全面理解和准确回答,这对模型的语义理解和推理能力提出了高要求。此外,数据集的构建还需要解决数据隐私和安全问题,确保患者信息得到妥善保护。这些挑战不仅影响了数据集的构建过程,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
CMB Chinese-Medical-Benchmark数据集的经典使用场景主要集中在医学知识的分类与医疗问答领域。该数据集通过提供丰富的医学知识综合多层次评估问题(CMB-Exam)和复杂医疗询问案例(CMB-Clin),为研究人员和开发者提供了一个全面的平台,用于训练和评估医疗问答系统、医学知识分类模型以及临床决策支持系统。通过这些数据,研究者可以开发出能够准确回答医学问题、辅助医生进行诊断和治疗的智能系统。
实际应用
在实际应用中,CMB Chinese-Medical-Benchmark数据集被广泛用于开发和优化医疗问答系统、临床决策支持系统以及医学教育辅助工具。通过使用该数据集,医疗机构可以构建更加智能和高效的问答系统,帮助医生快速获取准确的医学信息,提升诊断和治疗的效率。同时,教育机构也可以利用该数据集进行医学知识的教学和评估,提升医学生的学习效果和临床实践能力。
衍生相关工作
CMB Chinese-Medical-Benchmark数据集的发布和应用催生了一系列相关的经典工作,包括但不限于医学知识图谱的构建、医疗问答系统的优化、临床决策支持系统的开发等。研究者们基于该数据集开发了多种算法和模型,如基于深度学习的医学知识分类模型、基于自然语言处理的医疗问答系统等。这些工作不仅提升了医疗领域的智能化水平,也为后续的研究和应用提供了宝贵的经验和数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台 收录

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

music-genres-dataset

包含1494个音乐流派的数据集,每个流派有200首歌曲。每首歌曲提供以下属性:艺术家、歌曲名称、在列表中的位置、主流派、子流派(含流行度计数)、标签(非现有流派的标签,如情感等,也含流行度计数)。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录